厂商: openrouter · 标签: 视觉
OpenAI: GPT-4o (2024-08-06) — 多模态视觉模型OpenRouter中等OpenAI:
OpenAI: GPT-4o (2024-08-06)是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备函数调用、视觉理解能力,上下文窗口128K tokens,最大输出16K tokens,输入价格$2.50/百万tokens。
128K文本 图片视觉理解标准视觉
OpenAI: GPT-4o — 多模态视觉模型OpenRouter中等OpenAI:
OpenAI: GPT-4o是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备函数调用、视觉理解能力,上下文窗口128K tokens,最大输出16K tokens,输入价格$2.50/百万tokens。
128K文本 图片视觉理解标准视觉
Anthropic: Claude Sonnet 4.6 — 多模态视觉模型OpenRouter中等Anthropic: 思考
Anthropic: Claude Sonnet 4.6是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口1.0M tokens,最大输出128K tokens,输入价格$3.00/百万tokens。
1M文本 图片视觉理解标准推理
Perplexity: Sonar Pro Search — 多模态视觉模型OpenRouterPro中等Perplexity: 思考
Perplexity: Sonar Pro Search是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、视觉理解能力,上下文窗口200K tokens,最大输出8K tokens,输入价格$3.00/百万tokens。
200K文本 图片视觉理解标准推理
xAI: Grok 4 — 多模态视觉模型OpenRouter中等xAI: 思考
xAI: Grok 4是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口256K tokens,输入价格$3.00/百万tokens。
256K图片 文本视觉理解标准推理
Anthropic: Claude Sonnet 4 — 多模态视觉模型OpenRouter中等Anthropic: 思考
Anthropic: Claude Sonnet 4是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口1.0M tokens,最大输出64K tokens,输入价格$3.00/百万tokens。
1M图片 文本视觉理解标准推理
Perplexity: Sonar Pro — 多模态视觉模型OpenRouterPro中等Perplexity: 思考
Perplexity: Sonar Pro是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、视觉理解能力,上下文窗口200K tokens,最大输出8K tokens,输入价格$3.00/百万tokens。
200K文本 图片视觉理解标准推理
Anthropic: Claude 3.7 Sonnet — 多模态视觉模型OpenRouter中等Anthropic: 思考
Anthropic: Claude 3.7 Sonnet是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口200K tokens,最大输出128K tokens,输入价格$3.00/百万tokens。
200K文本 图片视觉理解标准推理
Anthropic: Claude 3.7 Sonnet (thinking) — 多模态视觉模型OpenRouter中等Anthropic: 思考
Anthropic: Claude 3.7 Sonnet (thinking)是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口200K tokens,最大输出64K tokens,输入价格$3.00/百万tokens。
200K文本 图片视觉理解标准推理
Anthropic: Claude Opus 4.6 — 多模态视觉模型OpenRouter中等Anthropic: 思考
Anthropic: Claude Opus 4.6是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口1.0M tokens,最大输出128K tokens,输入价格$5.00/百万tokens。
1M文本 图片视觉理解标准推理
Anthropic: Claude Opus 4.5 — 多模态视觉模型OpenRouter中等Anthropic: 思考
Anthropic: Claude Opus 4.5是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口200K tokens,最大输出64K tokens,输入价格$5.00/百万tokens。
200K图片 文本视觉理解标准推理
OpenAI: GPT-4o (2024-05-13) — 多模态视觉模型OpenRouter中等OpenAI:
OpenAI: GPT-4o (2024-05-13)是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备函数调用、视觉理解能力,上下文窗口128K tokens,最大输出4K tokens,输入价格$5.00/百万tokens。
128K文本 图片视觉理解标准视觉
Google: Gemini 2.5 Pro Preview 05-06 — 多模态视觉模型OpenRouterPro中等Google: 思考
Google: Gemini 2.5 Pro Preview 05-06是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口1.0M tokens,最大输出66K tokens,输入价格$1.25/百万tokens。
1.0M文本 图片 音频 视频视觉理解标准推理
OpenAI: o3 — 多模态视觉模型OpenRouter中等OpenAI: 思考
OpenAI: o3是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口200K tokens,最大输出100K tokens,输入价格$2.00/百万tokens。
200K图片 文本视觉理解标准推理
Google: Gemini 2.5 Pro Preview 06-05 — 多模态视觉模型OpenRouterPro中等Google: 思考
Google: Gemini 2.5 Pro Preview 06-05是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口1.0M tokens,最大输出66K tokens,输入价格$1.25/百万tokens。
1.0M图片 文本 音频视觉理解标准推理
Google: Gemini 2.5 Pro — 多模态视觉模型OpenRouterPro中等Google: 思考
Google: Gemini 2.5 Pro是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口1.0M tokens,最大输出66K tokens,输入价格$1.25/百万tokens。
1.0M文本 图片 音频 视频视觉理解标准推理
OpenAI: GPT-5 — 多模态视觉模型OpenRouter中等OpenAI: 思考
OpenAI: GPT-5是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口400K tokens,最大输出128K tokens,输入价格$1.25/百万tokens。
400K文本 图片视觉理解标准推理
OpenAI: GPT-5 Chat — 多模态视觉模型OpenRouter中等OpenAI:
OpenAI: GPT-5 Chat是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备视觉理解能力,上下文窗口128K tokens,最大输出16K tokens,输入价格$1.25/百万tokens。
128K图片 文本视觉理解标准视觉
OpenAI: GPT-5 Codex — 多模态视觉模型OpenRouterCode中等OpenAI: 思考
OpenAI: GPT-5 Codex是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口400K tokens,最大输出128K tokens,输入价格$1.25/百万tokens。
400K文本 图片视觉理解标准推理
OpenAI: o4 Mini — 多模态视觉模型OpenRouterMini中等OpenAI: 思考
OpenAI: o4 Mini是通过OpenRouter平台提供的AI模型,支持文本和图像输入的多模态模型,具备深度推理、函数调用、视觉理解能力,上下文窗口200K tokens,最大输出100K tokens,输入价格$1.10/百万tokens。
200K图片 文本视觉理解标准推理
OpenClaw 技能定制 / 插件定制 / 私有工作流定制
免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制