Gemini Image — Gemini 图像

v1.0.0

使用Gemini API生成或编辑图像，支持多个参考图像。可用于图像生成、风格转换、组合参考图像、UI原型设计或任何视觉创作任务。

0· 14·0 当前·0 累计

by @teebs4140 (Dylan Thibault)·MIT-0

API开发 AI模型访问图像处理设计工具

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install gemini-image

镜像加速npx clawhub@latest install gemini-image --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

Gemini 图像生成支持多个参考图像（最多 14 张）。安装要求： GEMINI_API_KEY 环境变量获取 API 密钥：https://aistudio.google.com/apikey 设置：export GEMINI_API_KEY="你的密钥" 或者在 OpenClaw 配置文件 (~/.openclaw/openclaw.json) 中： { "skills": { "entries": { "gemini-image": { "env": { "GEMINI_API_KEY": "你的密钥" } } } } }

使用方法 # 从提示生成图像 uv run {baseDir}/scripts/generate.py -p "日落在山上" -o sunset.png # 编辑/转换图像 uv run {baseDir}/scripts/generate.py -p "将其转换为流行艺术风格" -i photo.png -o popart.png # 结合多个参考图像（最多 14 张） uv run {baseDir}/scripts/generate.py -p "结合第一个图像的风格和第二个图像的内容" -i style-ref.png -i content.png -o combined.png # 指定宽高比 uv run {baseDir}/scripts/generate.py -p "宽屏风景" -a "16:9" -o wide.png # 更高分辨率 uv run {baseDir}/scripts/generate.py -p "详细肖像" -r 2K -o portrait.png

选项标志描述 -p, --prompt 图像提示（必需） -o, --output 输出文件名（必需） -i, --input-image 参考图像（可重复，最多 14 张） -m, --model pro（默认）、flash2、flash 或 exp -r, --resolution 1K（默认）、512、2K、4K（pro/flash2） -a, --aspect-ratio 参见下面的宽高比（pro/flash2） -t, --thinking minimal（默认）、high、dynamic（pro/flash2）

模型 pro（gemini-3-pro-image-preview）— 最高质量，思考模式，支持最多 14 张参考图像，宽高比 + 分辨率 flash2（gemini-3.1-flash-image-preview）— 新：Nano Banana 2。最佳价格/性能，思考级别，优秀的文本渲染，局部化，宽高比 + 分辨率 + 512px flash（gemini-2.5-flash-image）— 旧的 Flash，简单的配置，无法控制宽高比/分辨率 exp（gemini-2.0-flash-exp）— 实验性，适合编辑

何时使用 flash2 与 pro： flash2 — 快速迭代，文本密集图像，局部化，批量生成，优秀的质量和较低的成本 pro — 最高质量，复杂的多参考图像组合，最高保真度

宽高比（pro/flash2） 1:1 · 2:3 · 3:2 · 3:4 · 4:3 · 4:5 · 5:4 · 9:16 · 16:9 · 21:9 · 4:1 · 1:4 · 8:1 · 1:8

思考级别（pro/flash2）控制模型在生成图像之前的思考程度： minimal（默认）— 快速，适合简单的提示 high — 更好的质量，适合复杂的多元素提示 dynamic — 模型决定思考的程度

# 复杂场景，高思考级别 uv run {baseDir}/scripts/generate.py -p "详细的城市场景，带有特定的文本叠加" -m flash2 -t high -o city.png

参考图像限制模型最大图像数量备注 pro 14 总共 5 张高保真图像，6 张物体图像，5 张人物图像 flash 3 最适合 ≤3 张输入图像 exp 不定实验性

批量生成（50% 折扣）对于可以等待 24 小时的批量任务，使用批量 API。 "批量提交" 工作流程当用户说 "批量提交" 时，按照以下自动工作流程：提交批量任务 — 创建 JSONL 文件，运行 batch.py submit 创建每小时 cron 作业 — 每小时检查批量任务状态完成后 — 下载图像到指定的输出目录将图像发送到原始渠道 — 将所有图像发送到请求原始渠道（Telegram、Discord、Signal 等）自行禁用 cron 作业 — 成功交付后删除 cron 作业

手动批量命令

创建请求 JSONL 文件（每行一个）：

{"key": "日落", "prompt": "日落在山上", "aspect_ratio": "16:9", "resolution": "2K"} {"key": "肖像", "prompt": "企业头像", "input_images": ["/path/to/ref.png"]}

提交批量任务：uv run {baseDir}/scripts/batch.py submit requests.jsonl
检查状态（通常在 24 小时内完成）：uv run {baseDir}/scripts/batch.py status
下载完成的图像：uv run {baseDir}/scripts/batch.py download -o ./images/

何时使用批量与即时：需要立即生成 → generate.py（即时，完整价格）批量生成，能够等待 → batch.py（24 小时，50% 折扣）

提示指南参见 references/prompting.md 以获取详细的策略：生成：照片般的场景（相机/镜头/灯光术语）风格化的插图和贴纸（透明背景）文本渲染（标志、字体）产品模拟（商业摄影）极简主义/负空间设计连续艺术（漫画、分镜头） Google 搜索基础（实时信息） iOS 线框图和 UI 模拟编辑：添加/删除元素修复（语义遮罩）风格转换组合多个图像高保真细节保留草图 → 完成图像角色一致性（360 视图）核心原则：描述场景的叙述，而不是仅列出关键词。提示图像优先于上下文，提示最后 — 故意排序 -i 标志风格转换：第一张图像 = 风格参考，第二张 = 内容 Pro 模型使用 "思考" 阶段来规划组合之前的生成时间戳在文件名中：2026

License

运行时依赖

安装命令

技能文档

相关技能推荐