多模态 AI模型列表 | 龙虾技能库

热门搜索 GPT Claude DeepSeek 通义千问文心一言 Gemini

厂商: openrouter · 标签: 多模态

Meta: Llama 3.2 11B Vision Instruct — 多模态视觉模型OpenRouterVision低成本Meta:开源

Meta: Llama 3.2 11B Vision Instruct是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备视觉理解、开源能力，上下文窗口131K tokens，最大输出16K tokens，输入价格$0.24/百万tokens。

131.1K文本图片视觉理解低成本视觉

ByteDance Seed: Seed-2.0-Lite — 多模态视觉模型OpenRouterLite低成本ByteDance 思考

ByteDance Seed: Seed-2.0-Lite是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口262K tokens，最大输出131K tokens，输入价格$0.25/百万tokens。

262.1K文本图片视频视觉理解低成本推理

Google: Gemini 3.1 Flash Lite Preview — 多模态视觉模型OpenRouterFlash低成本Google: 思考

Google: Gemini 3.1 Flash Lite Preview是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$0.25/百万tokens。

1.0M文本图片视频音频视觉理解低成本推理

ByteDance Seed: Seed 1.6 — 多模态视觉模型OpenRouter低成本ByteDance 思考

ByteDance Seed: Seed 1.6是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口262K tokens，最大输出33K tokens，输入价格$0.25/百万tokens。

262.1K图片文本视频视觉理解低成本推理

OpenAI: GPT-5.1-Codex-Mini — 多模态视觉模型OpenRouterCode低成本OpenAI: 思考

OpenAI: GPT-5.1-Codex-Mini是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口400K tokens，最大输出128K tokens，输入价格$0.25/百万tokens。

400K图片文本视觉理解低成本推理

OpenAI: GPT-5 Mini — 多模态视觉模型OpenRouterMini低成本OpenAI: 思考

OpenAI: GPT-5 Mini是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口400K tokens，最大输出128K tokens，输入价格$0.25/百万tokens。

400K文本图片视觉理解低成本推理

Anthropic: Claude 3 Haiku — 多模态视觉模型OpenRouter低成本Anthropic:

Anthropic: Claude 3 Haiku是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口200K tokens，最大输出4K tokens，输入价格$0.25/百万tokens。

200K文本图片视觉理解低成本视觉

Qwen: Qwen3.5-122B-A10B — 多模态视觉模型OpenRouter低成本Qwen: 思考开源

Qwen: Qwen3.5-122B-A10B是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口262K tokens，最大输出66K tokens，输入价格$0.26/百万tokens。

262.1K文本图片视频视觉理解低成本推理

Qwen: Qwen3.5 Plus 2026-02-15 — 多模态视觉模型OpenRouterPlus低成本Qwen: 思考

Qwen: Qwen3.5 Plus 2026-02-15是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$0.26/百万tokens。

1M文本图片视频视觉理解低成本推理

Qwen: Qwen3 VL 235B A22B Thinking — 多模态视觉模型OpenRouterThinking低成本Qwen: 思考开源

Qwen: Qwen3 VL 235B A22B Thinking是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口131K tokens，最大输出33K tokens，输入价格$0.26/百万tokens。

131.1K文本图片视觉理解低成本推理

Z.ai: GLM 4.6V — 多模态视觉模型OpenRouter低成本Z.ai: 思考开源

Z.ai: GLM 4.6V是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口131K tokens，最大输出131K tokens，输入价格$0.30/百万tokens。

131.1K图片文本视频视觉理解低成本推理

Amazon: Nova 2 Lite — 多模态视觉模型OpenRouterLite低成本Amazon: 思考

Amazon: Nova 2 Lite是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$0.30/百万tokens。

1M文本图片视频视觉理解低成本推理

Google: Nano Banana (Gemini 2.5 Flash Image) — 多模态视觉模型OpenRouterFlash低成本Google:

Google: Nano Banana (Gemini 2.5 Flash Image)是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备视觉理解能力，上下文窗口33K tokens，最大输出33K tokens，输入价格$0.30/百万tokens。

32.8K图片文本视觉理解低成本视觉

Google: Gemini 2.5 Flash — 多模态视觉模型OpenRouterFlash低成本Google: 思考

Google: Gemini 2.5 Flash是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$0.30/百万tokens。

1.0M图片文本音频视频视觉理解低成本推理

Qwen: Qwen VL Plus — 多模态视觉模型OpenRouterPlus低成本Qwen:

Qwen: Qwen VL Plus是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备视觉理解能力，上下文窗口131K tokens，最大输出8K tokens，输入价格$0.14/百万tokens。

131.1K文本图片视觉理解低成本视觉

Baidu: ERNIE 4.5 VL 28B A3B — 多模态视觉模型OpenRouter低成本Baidu: 思考开源

Baidu: ERNIE 4.5 VL 28B A3B是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口30K tokens，最大输出8K tokens，输入价格$0.14/百万tokens。

30K文本图片视觉理解低成本推理

Mistral: Mistral Small 4 — 多模态视觉模型OpenRouter低成本Mistral 思考开源

Mistral: Mistral Small 4是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口262K tokens，输入价格$0.15/百万tokens。

262.1K文本图片视觉理解低成本推理

Mistral: Ministral 3 8B 2512 — 多模态视觉模型OpenRouterMini低成本Mistral开源

Mistral: Ministral 3 8B 2512是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解、开源能力，上下文窗口262K tokens，输入价格$0.15/百万tokens。

262.1K文本图片视觉理解低成本视觉

Meta: Llama 4 Maverick — 多模态视觉模型OpenRouter低成本Meta:开源

Meta: Llama 4 Maverick是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解、开源能力，上下文窗口1.0M tokens，最大输出16K tokens，输入价格$0.15/百万tokens。

1.0M文本图片视觉理解低成本视觉

OpenAI: GPT-4o-mini (2024-07-18) — 多模态视觉模型OpenRouterMini低成本OpenAI:

OpenAI: GPT-4o-mini (2024-07-18)是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口128K tokens，最大输出16K tokens，输入价格$0.15/百万tokens。

128K文本图片视觉理解低成本视觉

«1…4 5 6…8 »

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

AI 模型