多模态 AI模型列表 | 龙虾技能库

热门搜索 GPT Claude DeepSeek 通义千问文心一言 Gemini

标签: 多模态

Google: Nano Banana Pro (Gemini 3 Pro Image Preview) — 多模态视觉模型OpenRouterPro中等Google: 思考

Google: Nano Banana Pro (Gemini 3 Pro Image Preview)是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、视觉理解能力，上下文窗口66K tokens，最大输出33K tokens，输入价格$2.00/百万to

65.5K图片文本视觉理解标准推理

OpenAI: o4 Mini Deep Research — 多模态视觉模型OpenRouterMini中等OpenAI: 思考

OpenAI: o4 Mini Deep Research是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口200K tokens，最大输出100K tokens，输入价格$2.00/百万tokens。

200K图片文本视觉理解标准推理

OpenAI: o3 — 多模态视觉模型OpenRouter中等OpenAI: 思考

OpenAI: o3是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口200K tokens，最大输出100K tokens，输入价格$2.00/百万tokens。

200K图片文本视觉理解标准推理

OpenAI: GPT-4.1 — 多模态视觉模型OpenRouter中等OpenAI: 思考

OpenAI: GPT-4.1是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，输入价格$2.00/百万tokens。

1.0M图片文本视觉理解标准推理

Perplexity: Sonar Reasoning Pro — 多模态视觉模型OpenRouterPro中等Perplexity: 思考

Perplexity: Sonar Reasoning Pro是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、视觉理解能力，上下文窗口128K tokens，输入价格$2.00/百万tokens。

128K文本图片视觉理解标准推理

Perplexity: Sonar — 多模态视觉模型OpenRouter中等Perplexity:

Perplexity: Sonar是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备视觉理解能力，上下文窗口127K tokens，输入价格$1.00/百万tokens。

127.1K文本图片视觉理解标准视觉

Anthropic: Claude Haiku 4.5 — 多模态视觉模型OpenRouter中等Anthropic: 思考

Anthropic: Claude Haiku 4.5是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口200K tokens，最大输出64K tokens，输入价格$1.00/百万tokens。

200K图片文本视觉理解标准推理

Anthropic: Claude 3.5 Haiku — 多模态视觉模型OpenRouter低成本Anthropic:

Anthropic: Claude 3.5 Haiku是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口200K tokens，最大输出8K tokens，输入价格$0.80/百万tokens。

200K文本图片视觉理解低成本视觉

Amazon: Nova Pro 1.0 — 多模态视觉模型OpenRouterPro低成本Amazon:

Amazon: Nova Pro 1.0是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口300K tokens，最大输出5K tokens，输入价格$0.80/百万tokens。

300K文本图片视觉理解低成本视觉

Qwen: Qwen2.5 VL 72B Instruct — 多模态视觉模型OpenRouter低成本Qwen:开源

Qwen: Qwen2.5 VL 72B Instruct是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备视觉理解、开源能力，上下文窗口33K tokens，最大输出33K tokens，输入价格$0.80/百万tokens。

32.8K文本图片视觉理解低成本视觉

OpenAI: GPT-5.4 Mini — 多模态视觉模型OpenRouterMini低成本OpenAI: 思考

OpenAI: GPT-5.4 Mini是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口400K tokens，最大输出128K tokens，输入价格$0.75/百万tokens。

400K图片文本视觉理解低成本推理

Z.ai: GLM 4.5V — 多模态视觉模型OpenRouter低成本Z.ai: 思考开源

Z.ai: GLM 4.5V是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口66K tokens，最大输出16K tokens，输入价格$0.60/百万tokens。

65.5K文本图片视觉理解低成本推理

Qwen: Qwen3.6 Plus — 多模态视觉模型OpenRouterPlus低成本Qwen: 思考

Qwen: Qwen3.6 Plus是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$0.33/百万tokens。

1M文本图片视频视觉理解低成本推理

Mistral: Mistral Small 3.1 24B — 多模态视觉模型OpenRouter低成本Mistral 思考开源

Mistral: Mistral Small 3.1 24B是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、视觉理解、开源能力，上下文窗口128K tokens，输入价格$0.35/百万tokens。

128K文本图片视觉理解低成本推理

MoonshotAI: Kimi K2.5 — 多模态视觉模型OpenRouter低成本MoonshotAI: 思考开源

MoonshotAI: Kimi K2.5是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口262K tokens，最大输出66K tokens，输入价格$0.38/百万tokens。

262.1K文本图片视觉理解低成本推理

Qwen: Qwen3.5 397B A17B — 多模态视觉模型OpenRouter低成本Qwen: 思考开源

Qwen: Qwen3.5 397B A17B是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口262K tokens，最大输出66K tokens，输入价格$0.39/百万tokens。

262.1K文本图片视频视觉理解低成本推理

Xiaomi: MiMo-V2-Omni — 多模态视觉模型OpenRouter低成本Xiaomi: 思考

Xiaomi: MiMo-V2-Omni是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口262K tokens，最大输出66K tokens，输入价格$0.40/百万tokens。

262.1K文本音频图片视频视觉理解低成本推理

Mistral: Mistral Medium 3.1 — 多模态视觉模型OpenRouter低成本Mistral

Mistral: Mistral Medium 3.1是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口131K tokens，输入价格$0.40/百万tokens。

131.1K文本图片视觉理解低成本视觉

Mistral: Mistral Medium 3 — 多模态视觉模型OpenRouter低成本Mistral 思考

Mistral: Mistral Medium 3是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口131K tokens，输入价格$0.40/百万tokens。

131.1K文本图片视觉理解低成本推理

Qwen: Qwen VL Max — 多模态视觉模型OpenRouter低成本Qwen:

Qwen: Qwen VL Max是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口131K tokens，最大输出33K tokens，输入价格$0.52/百万tokens。

131.1K文本图片视觉理解低成本视觉

«1…3 4 5…12 »

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

AI 模型