多模态 AI模型列表 | 龙虾技能库

热门搜索 GPT Claude DeepSeek 通义千问文心一言 Gemini

标签: 多模态

Hunyuan-T1-Vision — 视觉思考版腾讯混元Thinking低成本Hunyuan 思考

腾讯混元视觉思考版模型，支持视觉内容的深度推理和思维链分析，适合复杂图像理解任务。

32K文本图片视觉理解低成本国产

Hunyuan-Vision — 视觉旗舰模型腾讯混元中等Hunyuan

腾讯混元视觉旗舰模型，提供最高质量的图像理解和多模态融合能力，适合专业视觉分析场景。

32K文本图片视觉理解标准国产

ERNIE-4.5-Turbo-VL — 视觉语言模型百度文心Turbo低成本ERNIE-4.5

百度文心ERNIE 4.5视觉语言模型，支持图像理解和多模态对话，128K上下文窗口。

128K文本图片视觉理解低成本国产

Qwen3-VL-Plus — 视觉Plus模型通义千问Vision低成本Qwen3 思考

通义千问视觉语言Plus模型，256K上下文，支持图像和视频理解，具备深度思考模式，阶梯定价适合多种视觉任务。

256K文本图片视频视觉理解低成本国产

Qwen3-VL-Flash — 视觉Flash模型通义千问Flash低成本Qwen3 思考

通义千问视觉语言Flash模型，256K上下文，支持图像和视频理解，输入价格低至¥0.15/百万token，高速低价视觉处理。

256K文本图片视频视觉理解低成本国产

QVQ-Max — 视觉推理旗舰通义千问中等QVQ 思考

通义千问QVQ视觉推理旗舰模型，具备深度思考能力，在复杂图像理解和分析任务上表现卓越，适合高精度视觉推理场景。

131.1K文本图片视觉理解标准国产

Qwen3.5-Omni-Plus — 全模态Plus模型通义千问Plus中等Qwen3.5

通义千问全模态Plus模型，支持文本、图像、视频和音频输入，可输出文本和音频，具备高级多模态理解和生成能力。

131.1K文本图片视频音频标准国产视觉

Qwen3.5-Omni-Flash — 全模态Flash模型通义千问Flash低成本Qwen3.5

通义千问全模态Flash模型，支持文本、图像、视频和音频输入输出，价格实惠，适合大规模多模态应用场景。

131.1K文本图片视频音频低成本国产视觉

Doubao-Seed-1.6-Vision — 视觉理解模型豆包Vision低成本Doubao-Seed

豆包视觉理解模型，支持图像和文本多模态输入，256K上下文，适合图像分析、文档理解等视觉任务。

256K文本图片视觉理解低成本国产

GLM-5V-Turbo — 多模态编程基座智谱 AITurbo低成本GLM-5

智谱AI多模态Coding基座模型，支持图像理解和文本生成，200K上下文，适合视觉编程任务。

200K文本图片视觉理解低成本国产

GLM-4.6V — 视觉推理模型智谱 AIVision低成本GLM-4

智谱AI视觉推理模型，支持图像理解和函数调用，128K上下文，32K输出。

128K文本图片视觉理解低成本国产

GLM-OCR — 轻量图文解析智谱 AILite低成本GLM

智谱AI轻量级OCR模型，支持图像文字识别和PDF文档解析，适合文档数字化场景。

文本图片视觉理解低成本国产

AutoGLM-Phone — 手机智能助理智谱 AI低成本AutoGLM

智谱AI手机智能助理模型，支持手机自动化操控，通过视觉理解实现移动设备智能交互。

20K文本图片视觉理解低成本国产

GLM-4.1V-Thinking-FlashX — 轻量视觉推理智谱 AIThinking低成本GLM-4 思考

智谱AI轻量视觉推理模型，支持深度思考和视觉理解，64K上下文，适合需要推理的视觉任务。

64K文本图片视觉理解低成本国产

GLM-4.6V-Flash — 免费视觉模型智谱 AIFlash免费GLM-4

智谱AI免费视觉模型，支持图像理解和函数调用，128K上下文，32K输出。

128K文本图片视觉理解免费国产

GLM-4.1V-Thinking-Flash — 免费视觉推理智谱 AIThinking免费GLM-4 思考

智谱AI免费视觉推理模型，支持深度思考和视觉理解，64K上下文。

64K文本图片视觉理解免费国产

GLM-4V-Flash — 免费图像理解智谱 AIFlash免费GLM-4

智谱AI免费图像理解模型，支持基础图像识别和理解，16K上下文。

16K文本图片视觉理解免费国产

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务