视觉理解 AI模型列表

热门搜索 GPT Claude DeepSeek 通义千问文心一言 Gemini

标签: 视觉理解

Qwen: Qwen3 VL 8B Instruct — 多模态视觉模型OpenRouter低成本Qwen: 思考开源

Qwen: Qwen3 VL 8B Instruct是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口131K tokens，最大输出33K tokens，输入价格$0.08/百万tokens。

131.1K图片文本视觉理解低成本推理

Meta: Llama 4 Scout — 多模态视觉模型OpenRouter低成本Meta:开源

Meta: Llama 4 Scout是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解、开源能力，上下文窗口328K tokens，最大输出16K tokens，输入价格$0.08/百万tokens。

327.7K文本图片视觉理解低成本视觉

Reka Edge — 多模态视觉模型OpenRouter低成本Reka开源

Reka Edge是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解、开源能力，上下文窗口16K tokens，最大输出16K tokens，输入价格$0.10/百万tokens。

16.4K图片文本视频视觉理解低成本视觉

ByteDance Seed: Seed-2.0-Mini — 多模态视觉模型OpenRouterMini低成本ByteDance 思考

ByteDance Seed: Seed-2.0-Mini是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口262K tokens，最大输出131K tokens，输入价格$0.10/百万tokens。

262.1K文本图片视频视觉理解低成本推理

Mistral: Ministral 3 3B 2512 — 多模态视觉模型OpenRouterMini低成本Mistral开源

Mistral: Ministral 3 3B 2512是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解、开源能力，上下文窗口131K tokens，输入价格$0.10/百万tokens。

131.1K文本图片视觉理解低成本视觉

Google: Gemini 2.5 Flash Lite Preview 09-2025 — 多模态视觉模型OpenRouterFlash低成本Google: 思考

Google: Gemini 2.5 Flash Lite Preview 09-2025是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$0.10/百万tok

1.0M文本图片音频视频视觉理解低成本推理

ByteDance: UI-TARS 7B — 多模态视觉模型OpenRouter低成本ByteDance:开源

ByteDance: UI-TARS 7B 是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备视觉理解、开源能力，上下文窗口128K tokens，最大输出2K tokens，输入价格$0.10/百万tokens。

128K图片文本视觉理解低成本视觉

Google: Gemini 2.5 Flash Lite — 多模态视觉模型OpenRouterFlash低成本Google: 思考

Google: Gemini 2.5 Flash Lite是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出66K tokens，输入价格$0.10/百万tokens。

1.0M文本图片音频视频视觉理解低成本推理

OpenAI: GPT-4.1 Nano — 多模态视觉模型OpenRouterMini低成本OpenAI:

OpenAI: GPT-4.1 Nano是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出33K tokens，输入价格$0.10/百万tokens。

1.0M图片文本视觉理解低成本视觉

Google: Gemini 2.0 Flash — 多模态视觉模型OpenRouterFlash低成本Google:

Google: Gemini 2.0 Flash是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口1.0M tokens，最大输出8K tokens，输入价格$0.10/百万tokens。

1.0M文本图片音频视频视觉理解低成本视觉

Qwen: Qwen3 VL 32B Instruct — 多模态视觉模型OpenRouter低成本Qwen: 思考开源

Qwen: Qwen3 VL 32B Instruct是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口131K tokens，最大输出33K tokens，输入价格$0.10/百万tokens。

131.1K文本图片视觉理解低成本推理

Qwen: Qwen3 VL 8B Thinking — 多模态视觉模型OpenRouterThinking低成本Qwen: 思考开源

Qwen: Qwen3 VL 8B Thinking是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口131K tokens，最大输出33K tokens，输入价格$0.12/百万tokens。

131.1K图片文本视觉理解低成本推理

Qwen: Qwen3 VL 30B A3B Thinking — 多模态视觉模型OpenRouterThinking低成本Qwen: 思考开源

Qwen: Qwen3 VL 30B A3B Thinking是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口131K tokens，最大输出33K tokens，输入价格$0.13/百万tokens。

131.1K文本图片视觉理解低成本推理

Qwen: Qwen3 VL 30B A3B Instruct — 多模态视觉模型OpenRouter低成本Qwen:开源

Qwen: Qwen3 VL 30B A3B Instruct是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解、开源能力，上下文窗口131K tokens，最大输出33K tokens，输入价格$0.13/百万tokens。

131.1K文本图片视觉理解低成本视觉

Google: Gemma 3 4B — 多模态视觉模型OpenRouter低成本Google: 思考开源

Google: Gemma 3 4B是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、视觉理解、开源能力，上下文窗口131K tokens，输入价格$0.04/百万tokens。

131.1K文本图片视觉理解低成本推理

Google: Gemma 3 12B — 多模态视觉模型OpenRouter低成本Google: 思考开源

Google: Gemma 3 12B是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、视觉理解、开源能力，上下文窗口131K tokens，输入价格$0.04/百万tokens。

131.1K文本图片视觉理解低成本推理

Google: Gemma 3 27B — 多模态视觉模型OpenRouter低成本Google: 思考开源

Google: Gemma 3 27B是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、视觉理解、开源能力，上下文窗口131K tokens，最大输出16K tokens，输入价格$0.08/百万tokens。

131.1K文本图片视觉理解低成本推理

Qwen: Qwen3.5-9B — 多模态视觉模型OpenRouter低成本Qwen: 思考开源

Qwen: Qwen3.5-9B是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解、开源能力，上下文窗口256K tokens，最大输出33K tokens，输入价格$0.05/百万tokens。

256K文本图片视频视觉理解低成本推理

OpenAI: GPT-5 Nano — 多模态视觉模型OpenRouterMini低成本OpenAI: 思考

OpenAI: GPT-5 Nano是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备深度推理、函数调用、视觉理解能力，上下文窗口400K tokens，输入价格$0.05/百万tokens。

400K文本图片视觉理解低成本推理

Amazon: Nova Lite 1.0 — 多模态视觉模型OpenRouterLite低成本Amazon:

Amazon: Nova Lite 1.0是通过OpenRouter平台提供的AI模型，支持文本和图像输入的多模态模型，具备函数调用、视觉理解能力，上下文窗口300K tokens，最大输出5K tokens，输入价格$0.06/百万tokens。

300K文本图片视觉理解低成本视觉

«1…6 7 8…12 »

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

AI 模型