Minimax-Multimodal-Toolkit — Minimax-Multimodal-工具kit
v1.0.2使用 mmx 生成文本、图像、视频、语音和音乐,通过 MiniMax AI 平台。适用于用户想要创建媒体内容、与 MiniMax 模型聊天、进行网页搜索或从终端管理 MiniMax API 资源时使用。
运行时依赖
安装命令
点击复制技能文档
MiniMax CLI — Agent 技能指南 使用 mmx 生成文本、图像、视频、语音、音乐,并通过 MiniMax AI 平台进行网络搜索。
前提条件 # 安装 npm install -g mmx-cli # 身份验证(保存到 ~/.mmx/credentials.json) mmx auth login --api-key sk-xxxxx # 或每次调用时传递 mmx text chat --api-key sk-xxxxx --message "Hello" 区域会自动检测。可以使用 --region global 或 --region cn 来覆盖。
代理标志 在非交互式(代理/CI)上下文中始终使用以下标志: 标志 | 目的 ----|---- --non-interactive | 快速失败,缺少参数,而不是提示 --quiet | 抑制旋转器/进度;stdout 是纯数据 --output json | 机器可读的 JSON 输出 --async | 立即返回任务 ID(视频生成) --dry-run | 预览 API 请求而不执行 --yes | 跳过确认提示
命令 text chat | 聊天完成。默认模型:MiniMax-M2.7。 mmx text chat --message [flags] 标志 | 类型 | 描述 ----|----|---- --message | string, 必需,重复 | 消息文本。使用 role: 前缀设置角色(例如 "system:您很有帮助","user:您好") --messages-file | string | JSON 文件中的消息数组。使用 - 表示 stdin --system | string | 系统提示 --model | string | 模型 ID(默认:MiniMax-M2.7) --max-tokens | number | 最大令牌数(默认:4096) --temperature | number | 采样温度(0.0, 1.0] --top-p | number | 核采样阈值 --stream | boolean | 流令牌(默认:TTY 中启用) --tool | string, 重复 | 工具定义 JSON 或文件路径
# 单个消息 mmx text chat --message "user:什么是 MiniMax?" --output json --quiet # 多回合 mmx text chat --system "您是一个编码助手。" --message "user:编写 Python 中的 fizzbuzz" --output json # 从文件 cat conversation.json | mmx text chat --messages-file - --output json stdout:响应文本(文本模式)或完整响应对象(JSON 模式)。
image generate | 生成图像。模型:image-01。 mmx image generate --prompt [flags] 标志 | 类型 | 描述 ----|----|---- --prompt | string, 必需 | 图像描述 --aspect-ratio | string | 例如 16:9, 1:1 --n | number | 图像数量(默认:1) --subject-ref | string | 主题引用:type=character, image=path-or-url --out-dir
| string | 下载图像到目录 --out-prefix | string | 文件名前缀(默认:image) mmx image generate --prompt "一只穿着宇宙服的猫" --output json --quiet # stdout:图像 URL(每行一个,在安静模式下) mmx image generate --prompt "Logo" --n 3 --out-dir ./gen/ --quiet # stdout:保存的文件路径(每行一个)video generate | 生成视频。默认模型:MiniMax-Hailuo-2.3。这是一个异步任务,默认情况下会轮询直到完成。 mmx video generate --prompt [flags] 标志 | 类型 | 描述 ----|----|---- --prompt | string, 必需 | 视频描述 --model | string | MiniMax-Hailuo-2.3(默认)或 MiniMax-Hailuo-2.3-Fast --first-frame | string | 第一帧图像 --callback-url | string | 完成时的 Webhook URL --download | string | 将视频保存到特定文件 --async | boolean | 立即返回任务 ID --no-wait | boolean | 与 --async 相同 --poll-interval | number | 轮询间隔(默认:5) # 非阻塞:获取任务 ID mmx video generate --prompt "一个机器人。" --async --quiet # stdout:{"taskId":"..."} # 阻塞:等待并获取文件路径 mmx video generate --prompt "海浪。" --download ocean.mp4 --quiet # stdout:ocean.mp4
video task get | 查询视频生成任务的状态。 mmx video task get --task-id [--output json]
video download | 通过任务 ID 下载已完成的视频。 mmx video download --file-id [--out ]
speech synthesize | 文本转语音。默认模型:speech-2.8-hd。最大 10k 个字符。
mmx speech synthesize --text [flags]
标志 | 类型 | 描述
----|----|----
--text | string | 要合成的文本
--text-file | string | 从文件中读取文本。使用 - 表示 stdin
--model | string | speech-2.8-hd(默认),speech-2.6,speech-02
--voice | string | 语音 ID(默认:English_expressive_narrator)
--speed | number | 速度倍数
--volume | number | 音量级别
--pitch | number | 音调调整
--format | string | 音频格式(默认:mp3)
--sample-rate | number | 采样率(默认:32000)
--bitrate | number | 比特率(默认:128000)
--channels | number | 音频通道(默认:1)
--language | string | 语言增强
--subtitles | boolean | 包括字幕定时数据
--pronunciation | string, 重复 | 自定义发音
--sound-effect | string | 添加音效
--out | string | 将音频保存到文件
--stream | boolean | 将原始音频流式传输到 stdout
mmx speech synthesize --text "你好,世界" --out hello.mp3 --quiet
# stdout:hello.mp3
echo "突发新闻。" | mmx speech synthesize --text-file - --out news.mp3
music generate | 生成音乐。模型:music-2.5。对丰富的结构化描述做出良好的响应。
mmx music generate --prompt [--lyrics ] [flags]
标志 | 类型 | 描述
----|----|----