Multimodal Content Creator — 多模态内容创作者

v1.0.0

多模态内容创建工作流 —— 接收 WhatsApp 消息（文本或语音），通过 Whisper 转录音频，使用 DALL-E 3 生成图像，并自动回复...

0· 0·0 当前·0 累计

by @terrycarter1985

即时通讯图像处理

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install multimodal-content-creator

镜像加速npx clawhub@latest install multimodal-content-creator --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

多模态内容创建者一个基于WhatsApp的内容创建工作流，允许客户发送文本或语音消息，并以AI生成的图像作为回复。工作原理接收WhatsApp消息（文本或语音笔记）使用OpenAI Whisper转录语音笔记使用DALL-E 3根据提示生成图像将生成的图像回复给客户先决条件将OpenAI API密钥设置为OPENAI_API_KEY环境变量 WhatsApp CLI身份验证（python wacli.py login ）用法 # 处理所有未读的WhatsApp消息 python scripts/workflow.py process-all # 生成单个图像 python scripts/generate_images.py "一只猫骑着滑板" # 从提示文件批量生成 python scripts/generate_images.py prompts.txt # 转录音频文件 python scripts/transcribe.py recording.mp3 文件 scripts/workflow.py — 主要编排脚本 scripts/generate_images.py — DALL-E 3图像生成 scripts/transcribe.py — Whisper音频转录（支持大文件的分块） scripts/wacli.py — WhatsApp CLI客户端

运行时依赖

安装命令

技能文档

相关技能推荐