Multimodal Content Creator — 多模态内容创作者
v1.0.0多模态内容创建工作流 —— 接收 WhatsApp 消息(文本或语音),通过 Whisper 转录音频,使用 DALL-E 3 生成图像,并自动回复...
0· 0·0 当前·0 累计
运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install multimodal-content-creator
镜像加速npx clawhub@latest install multimodal-content-creator --registry https://cn.longxiaskill.com 镜像可用
技能文档
多模态内容创建者 一个基于WhatsApp的内容创建工作流,允许客户发送文本或语音消息,并以AI生成的图像作为回复。 工作原理 接收WhatsApp消息(文本或语音笔记) 使用OpenAI Whisper转录语音笔记 使用DALL-E 3根据提示生成图像 将生成的图像回复给客户 先决条件 将OpenAI API密钥设置为OPENAI_API_KEY环境变量 WhatsApp CLI身份验证(python wacli.py login ) 用法 # 处理所有未读的WhatsApp消息 python scripts/workflow.py process-all # 生成单个图像 python scripts/generate_images.py "一只猫骑着滑板" # 从提示文件批量生成 python scripts/generate_images.py prompts.txt # 转录音频文件 python scripts/transcribe.py recording.mp3 文件 scripts/workflow.py — 主要编排脚本 scripts/generate_images.py — DALL-E 3图像生成 scripts/transcribe.py — Whisper音频转录(支持大文件的分块) scripts/wacli.py — WhatsApp CLI客户端