AI 模型目录 | 龙虾技能库

热门搜索 GPT Claude DeepSeek 通义千问文心一言 Gemini

厂商: openrouter · 类型: vision

OpenAI: GPT-5 Codex — 多模态视觉模型OpenRouterCode中等OpenAI: 思考

OpenAI: GPT-5 Codex是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口400K tokens，最大输出128K tokens，输入价格$1.25/百万tokens。

400K文本图片视觉理解标准推理

OpenAI: GPT-5 Chat — 多模态视觉模型OpenRouter中等OpenAI:

OpenAI: GPT-5 Chat是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备视觉理解能力，上下文窗口128K tokens，最大输出16K tokens，输入价格$1.25/百万tokens。

128K图片文本视觉理解标准视觉

OpenAI: GPT-5 — 多模态视觉模型OpenRouter中等OpenAI: 思考

OpenAI: GPT-5是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口400K tokens，最大输出128K tokens，输入价格$1.25/百万tokens。

400K文本图片视觉理解标准推理

Google: Gemini 2.5 Pro — 多模态视觉模型OpenRouterPro中等Google: 思考

Google: Gemini 2.5 Pro是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$1.25/百万tokens。

1.0M文本图片音频视频视觉理解标准推理

Google: Gemini 2.5 Pro Preview 06-05 — 多模态视觉模型OpenRouterPro中等Google: 思考

Google: Gemini 2.5 Pro Preview 06-05是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$1.25/百万tokens。

1.0M图片文本音频视觉理解标准推理

Google: Gemini 2.5 Pro Preview 05-06 — 多模态视觉模型OpenRouterPro中等Google: 思考

Google: Gemini 2.5 Pro Preview 05-06是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$1.25/百万tokens。

1.0M文本图片音频视频视觉理解标准推理

OpenAI: GPT-5.3-Codex — 多模态视觉模型OpenRouterCode中等OpenAI: 思考

OpenAI: GPT-5.3-Codex是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口400K tokens，最大输出128K tokens，输入价格$1.75/百万tokens。

400K文本图片视觉理解标准推理

Perplexity: Sonar Reasoning Pro — 多模态视觉模型OpenRouterPro中等Perplexity: 思考

Perplexity: Sonar Reasoning Pro是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、视觉理解能力，上下文窗口128K tokens，输入价格$2.00/百万tokens。

128K文本图片视觉理解标准推理

OpenAI: GPT-4.1 — 多模态视觉模型OpenRouter中等OpenAI: 思考

OpenAI: GPT-4.1是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，输入价格$2.00/百万tokens。

1.0M图片文本视觉理解标准推理

OpenAI: o4 Mini Deep Research — 多模态视觉模型OpenRouterMini中等OpenAI: 思考

OpenAI: o4 Mini Deep Research是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口200K tokens，最大输出100K tokens，输入价格$2.00/百万tokens。

200K图片文本视觉理解标准推理

Google: Nano Banana Pro (Gemini 3 Pro Image Preview) — 多模态视觉模型OpenRouterPro中等Google: 思考

Google: Nano Banana Pro (Gemini 3 Pro Image Preview)是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、视觉理解能力，上下文窗口66K tokens，最大输出33K tokens，输入价格$2.00/百万to

65.5K图片文本视觉理解标准推理

Google: Gemini 3.1 Pro Preview — 多模态视觉模型OpenRouterPro中等Google: 思考

Google: Gemini 3.1 Pro Preview是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$2.00/百万tokens。

1.0M音频图片文本视频视觉理解标准推理

Google: Gemini 3.1 Pro Preview Custom Tools — 多模态视觉模型OpenRouterPro中等Google: 思考

Google: Gemini 3.1 Pro Preview Custom Tools是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$2.00/百万token

1.0M文本音频图片视频视觉理解标准推理

OpenAI: GPT-5.2-Codex — 多模态视觉模型OpenRouterCode中等OpenAI: 思考

OpenAI: GPT-5.2-Codex是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口400K tokens，最大输出128K tokens，输入价格$1.75/百万tokens。

400K文本图片视觉理解标准推理

xAI: Grok 4.20 — 多模态视觉模型OpenRouter中等xAI: 思考

xAI: Grok 4.20是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口2.0M tokens，输入价格$2.00/百万tokens。

2M文本图片视觉理解标准推理

OpenAI: GPT-5.3 Chat — 多模态视觉模型OpenRouter中等OpenAI:

OpenAI: GPT-5.3 Chat是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口128K tokens，最大输出16K tokens，输入价格$1.75/百万tokens。

128K文本图片视觉理解标准视觉

OpenAI: GPT-5.2 — 多模态视觉模型OpenRouter中等OpenAI: 思考

OpenAI: GPT-5.2是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口400K tokens，最大输出128K tokens，输入价格$1.75/百万tokens。

400K图片文本视觉理解标准推理

xAI: Grok 4.20 Multi-Agent — 多模态视觉模型OpenRouter中等xAI: 思考

xAI: Grok 4.20 Multi-Agent是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口2.0M tokens，输入价格$2.00/百万tokens。

2M文本图片视觉理解标准推理

OpenAI: GPT-5.2 Chat — 多模态视觉模型OpenRouter中等OpenAI: 思考

OpenAI: GPT-5.2 Chat是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口128K tokens，最大输出32K tokens，输入价格$1.75/百万tokens。

128K图片文本视觉理解标准推理

Qwen: Qwen2.5 VL 72B Instruct — 多模态视觉模型OpenRouter低成本Qwen:开源

Qwen: Qwen2.5 VL 72B Instruct是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备视觉理解、开源能力，上下文窗口33K tokens，最大输出33K tokens，输入价格$0.80/百万tokens。

32.8K文本图片视觉理解低成本视觉

«1 2 3 4…8 »

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务