多模态 AI模型列表 | 龙虾技能库

热门搜索 GPT Claude DeepSeek 通义千问文心一言 Gemini

定价: standard · 标签: 多模态

Google: Gemini 2.5 Pro — 多模态视觉模型OpenRouterPro中等Google: 思考

Google: Gemini 2.5 Pro是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$1.25/百万tokens。

1.0M文本图片音频视频视觉理解标准推理

Google: Gemini 2.5 Pro Preview 06-05 — 多模态视觉模型OpenRouterPro中等Google: 思考

Google: Gemini 2.5 Pro Preview 06-05是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$1.25/百万tokens。

1.0M图片文本音频视觉理解标准推理

Google: Gemini 2.5 Pro Preview 05-06 — 多模态视觉模型OpenRouterPro中等Google: 思考

Google: Gemini 2.5 Pro Preview 05-06是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$1.25/百万tokens。

1.0M文本图片音频视频视觉理解标准推理

OpenAI: GPT-5.3 Chat — 多模态视觉模型OpenRouter中等OpenAI:

OpenAI: GPT-5.3 Chat是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口128K tokens，最大输出16K tokens，输入价格$1.75/百万tokens。

128K文本图片视觉理解标准视觉

OpenAI: GPT-5.3-Codex — 多模态视觉模型OpenRouterCode中等OpenAI: 思考

OpenAI: GPT-5.3-Codex是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口400K tokens，最大输出128K tokens，输入价格$1.75/百万tokens。

400K文本图片视觉理解标准推理

OpenAI: GPT-5 Chat — 多模态视觉模型OpenRouter中等OpenAI:

OpenAI: GPT-5 Chat是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备视觉理解能力，上下文窗口128K tokens，最大输出16K tokens，输入价格$1.25/百万tokens。

128K图片文本视觉理解标准视觉

Perplexity: Sonar — 多模态视觉模型OpenRouter中等Perplexity:

Perplexity: Sonar是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备视觉理解能力，上下文窗口127K tokens，输入价格$1.00/百万tokens。

127.1K文本图片视觉理解标准视觉

Anthropic: Claude Haiku 4.5 — 多模态视觉模型OpenRouter中等Anthropic: 思考

Anthropic: Claude Haiku 4.5是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口200K tokens，最大输出64K tokens，输入价格$1.00/百万tokens。

200K图片文本视觉理解标准推理

InternVL3-38B — InternVL3视觉百度文心中等InternVL3

InternVL3-38B是百度文心提供的AI模型，支持视觉理解。

32K文本图片视觉理解标准国产

Qwen2.5-VL-32B-Instruct — Qwen2.5 VL中型百度文心中等Qwen2.5-VL

Qwen2.5-VL-32B-Instruct是百度文心提供的AI模型，支持视觉理解。

32K文本图片视觉理解标准国产

SenseNova V6 Reasoner — 深度推理商汤日日新reasoner中等SenseNova-V6 思考

商汤日日新融合模态深度推理模型，支持复杂慢思考推理，输出思维链和最终答案。

128K文本图片视觉理解标准国产

Gemini 2.5 Pro — 2M超长上下文GooglePro中等Gemini-2.5 思考

Gemini 2.5 Pro是Google最新旗舰多模态模型，提供高质量AI推理能力。支持1M超长上下文。

2M文本图片视频音频对话标准推理

Gemini 3.1 Pro — 最新旗舰GooglePro中等Gemini-3.1 思考

Gemini 3.1 Pro是Google最新旗舰多模态模型，1M上下文。支持1M超长上下文。

1M文本图片视频音频对话标准推理

Claude Haiku 4.5 — 最新快速版Anthropichaiku中等Claude

Claude Haiku 4.5是Anthropic快速响应模型，适用于摘要、提取等任务，200K上下文窗口，价格低廉。

200K文本图片对话标准视觉

Claude Sonnet 4.6 — 代码智能体最佳Anthropicsonnet中等Claude 思考

Claude Sonnet 4.6是Anthropic均衡型模型，在编程、写作和指令遵循方面表现优异，200K上下文窗口，性价比高。

1M文本图片对话标准推理

Claude Opus 4.6 — 最强推理旗舰Anthropicopus中等Claude 思考

Claude Opus 4.6是Anthropic最强旗舰模型，在推理、编程和长上下文理解方面领先，200K上下文窗口。超过200K token时价格翻倍。

1M文本图片对话标准推理

Qianfan-VL-70B — 千帆视觉大模型百度文心中等Qianfan-VL

百度千帆自研70B视觉理解大模型，支持图像理解和多模态推理

32K文本图片视觉理解标准国产

Hunyuan-Vision — 视觉旗舰模型腾讯混元中等Hunyuan

腾讯混元视觉旗舰模型，提供最高质量的图像理解和多模态融合能力，适合专业视觉分析场景。

32K文本图片视觉理解标准国产

QVQ-Max — 视觉推理旗舰通义千问中等QVQ 思考

通义千问QVQ视觉推理旗舰模型，具备深度思考能力，在复杂图像理解和分析任务上表现卓越，适合高精度视觉推理场景。

131.1K文本图片视觉理解标准国产

Qwen3.5-Omni-Plus — 全模态Plus模型通义千问Plus中等Qwen3.5

通义千问全模态Plus模型，支持文本、图像、视频和音频输入，可输出文本和音频，具备高级多模态理解和生成能力。

131.1K文本图片视频音频标准国产视觉

«1 2 3»

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

AI 模型