Gemini Image — Gemini 图像
v1.0.0使用Gemini API生成或编辑图像,支持多个参考图像。可用于图像生成、风格转换、组合参考图像、UI原型设计或任何视觉创作任务。
运行时依赖
安装命令
点击复制技能文档
Gemini 图像生成 支持多个参考图像(最多 14 张)。 安装要求: GEMINI_API_KEY 环境变量 获取 API 密钥:https://aistudio.google.com/apikey 设置:export GEMINI_API_KEY="你的密钥" 或者在 OpenClaw 配置文件 (~/.openclaw/openclaw.json) 中: { "skills": { "entries": { "gemini-image": { "env": { "GEMINI_API_KEY": "你的密钥" } } } } }
使用方法 # 从提示生成图像 uv run {baseDir}/scripts/generate.py -p "日落在山上" -o sunset.png # 编辑/转换图像 uv run {baseDir}/scripts/generate.py -p "将其转换为流行艺术风格" -i photo.png -o popart.png # 结合多个参考图像(最多 14 张) uv run {baseDir}/scripts/generate.py -p "结合第一个图像的风格和第二个图像的内容" -i style-ref.png -i content.png -o combined.png # 指定宽高比 uv run {baseDir}/scripts/generate.py -p "宽屏风景" -a "16:9" -o wide.png # 更高分辨率 uv run {baseDir}/scripts/generate.py -p "详细肖像" -r 2K -o portrait.png
选项 标志 描述 -p, --prompt 图像提示(必需) -o, --output 输出文件名(必需) -i, --input-image 参考图像(可重复,最多 14 张) -m, --model pro(默认)、flash2、flash 或 exp -r, --resolution 1K(默认)、512、2K、4K(pro/flash2) -a, --aspect-ratio 参见下面的宽高比(pro/flash2) -t, --thinking minimal(默认)、high、dynamic(pro/flash2)
模型 pro(gemini-3-pro-image-preview)— 最高质量,思考模式,支持最多 14 张参考图像,宽高比 + 分辨率 flash2(gemini-3.1-flash-image-preview)— 新:Nano Banana 2。最佳价格/性能,思考级别,优秀的文本渲染,局部化,宽高比 + 分辨率 + 512px flash(gemini-2.5-flash-image)— 旧的 Flash,简单的配置,无法控制宽高比/分辨率 exp(gemini-2.0-flash-exp)— 实验性,适合编辑
何时使用 flash2 与 pro: flash2 — 快速迭代,文本密集图像,局部化,批量生成,优秀的质量和较低的成本 pro — 最高质量,复杂的多参考图像组合,最高保真度
宽高比(pro/flash2) 1:1 · 2:3 · 3:2 · 3:4 · 4:3 · 4:5 · 5:4 · 9:16 · 16:9 · 21:9 · 4:1 · 1:4 · 8:1 · 1:8
思考级别(pro/flash2) 控制模型在生成图像之前的思考程度: minimal(默认)— 快速,适合简单的提示 high — 更好的质量,适合复杂的多元素提示 dynamic — 模型决定思考的程度
# 复杂场景,高思考级别 uv run {baseDir}/scripts/generate.py -p "详细的城市场景,带有特定的文本叠加" -m flash2 -t high -o city.png
参考图像限制 模型 最大图像数量 备注 pro 14 总共 5 张高保真图像,6 张物体图像,5 张人物图像 flash 3 最适合 ≤3 张输入图像 exp 不定 实验性
批量生成(50% 折扣) 对于可以等待 24 小时的批量任务,使用批量 API。 "批量提交" 工作流程 当用户说 "批量提交" 时,按照以下自动工作流程: 提交批量任务 — 创建 JSONL 文件,运行 batch.py submit 创建每小时 cron 作业 — 每小时检查批量任务状态 完成后 — 下载图像到指定的输出目录 将图像发送到原始渠道 — 将所有图像发送到请求原始渠道(Telegram、Discord、Signal 等) 自行禁用 cron 作业 — 成功交付后删除 cron 作业
手动批量命令
- 创建请求 JSONL 文件(每行一个):
- 提交批量任务:uv run {baseDir}/scripts/batch.py submit requests.jsonl
- 检查状态(通常在 24 小时内完成):uv run {baseDir}/scripts/batch.py status
- 下载完成的图像:uv run {baseDir}/scripts/batch.py download -o ./images/
何时使用批量与即时: 需要立即生成 → generate.py(即时,完整价格) 批量生成,能够等待 → batch.py(24 小时,50% 折扣)
提示指南 参见 references/prompting.md 以获取详细的策略: 生成: 照片般的场景(相机/镜头/灯光术语) 风格化的插图和贴纸(透明背景) 文本渲染(标志、字体) 产品模拟(商业摄影) 极简主义/负空间设计 连续艺术(漫画、分镜头) Google 搜索基础(实时信息) iOS 线框图和 UI 模拟 编辑: 添加/删除元素 修复(语义遮罩) 风格转换 组合多个图像 高保真细节保留 草图 → 完成图像 角色一致性(360 视图) 核心原则:描述场景的叙述,而不是仅列出关键词。 提示 图像优先于上下文,提示最后 — 故意排序 -i 标志 风格转换:第一张图像 = 风格参考,第二张 = 内容 Pro 模型使用 "思考" 阶段来规划组合之前的生成 时间戳在文件名中:2026