📦 add narration to a video automatically — 自动配音

v1.0.0

为无声录屏自动生成旁白:提取关键帧→分析画面内容→撰写演讲式解说稿→调用 Microsoft TTS 合成语音→合并音轨,无需手动配音即可产出带专业旁白的视频。

0· 77·0 当前·0 累计
ryanzhang-oss 头像by @ryanzhang-oss (Ryan Zhang)
下载技能包
最后更新
2026/4/5
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
该技能的文件、脚本与说明均与其声明功能(为无声录屏自动生成旁白)一致,未索取无关凭据或特权访问。
评估建议
What to consider before installing/running: (1) The skill runs local shell scripts (extract frames, call ffmpeg, run a small Python snippet using the edge-tts package). Review those scripts (you already have them) and run in a controlled environment. (2) edge-tts is installed via pip and will fetch code from PyPI and then perform network calls to Microsoft TTS endpoints to synthesize audio — avoid feeding sensitive or private content you don't want sent to external services. (3) Ensure ffmpeg an...
详细分析 ▾
用途与能力
名称/描述与实际产物一致:ffmpeg 用于抽帧/合并,python3+edge-tts 用于语音合成,未请求无关二进制、环境变量或配置路径。
指令范围
SKILL.md 指示代理抽帧、写稿、合成 TTS、合并音频,均紧扣目标;要求检查帧与对齐时长属于质量控制,需访问抽出的图片与音频文件。
安装机制
仅提供指令(无打包安装器)。README 建议用 pip3 装 edge-tts、用 brew/apt 装 ffmpeg;pip 会从 PyPI 下载并本地执行,这是常见做法但需留意网络安全。
凭证需求
未请求任何环境变量、密钥或配置路径,脚本仅操作本地文件,无过度凭据需求。
持久化与权限
技能不要求常驻或修改其他技能/系统级设置,脚本仅生成本地输出(帧、mp3、合并视频)。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/4

你可以自动为视频添加专业旁白

无害

安装命令

点击复制
官方npx clawhub@latest install video-auto-narration
镜像加速npx clawhub@latest install video-auto-narration --registry https://cn.longxiaskill.com

技能文档

# Video Narration Skill 为无声屏幕录制演示视频生成专业旁白。 ## 工作流程 ### 1. 分析视频 提取关键帧并理解屏幕上正在发生的事情: ``bash # Extract one frame every 5 seconds ./scripts/extract-frames.sh [output_dir] ` - 查看每一张提取的帧,构建完整理解。 - 识别叙事弧线:什么是铺垫、动作、关键时刻以及结果。 ### 2. 撰写旁白脚本 编写演示风格的旁白——而非干巴巴的说明。遵循以下结构: | 段落 | 目的 | |---------|---------| | 背景 | 告诉观众他们即将看到什么以及为什么重要 | | 情境 | 解释设置 / 场景 | | 提示 / 动作 | 展示用户实际做了什么(保持简洁) | | 逐步演示 | 旁白叙述每个主要步骤,突出见解与转折点 | | 结果 | 给出回报——发现了什么、修复了什么、为什么令人印象深刻 | 写作指南: - 使用对话式、自信的语言——如同向同行展示。 - 使用短促有力的句子以突出重点,变换句长营造节奏。 - 突出“顿悟时刻”——出现惊喜或巧妙之处的瞬间。 - 当工具、命令和数值对故事重要时,直接点名。 - 以一句令人难忘的收尾语总结价值。 - 总字数必须适合视频时长(正常语速约 2.5 字/秒)。 将脚本保存为 _voiceover.md,与视频放在一起。 ### 3. 生成 TTS 音频 使用生成脚本合成各段旁白: `bash ./scripts/generate-tts.sh [voice] [rate] ` 或通过 Python 直接用 edge-tts 生成: - Voiceen-US-GuyNeural(自然男声)或 en-US-AvaNeural(自然女声) - Rate:在 +0%+10% 之间调整,以匹配视频时长 - 每段生成独立音频片段,便于精确控制时间 - 各段之间拼接约 0.4 秒静音 - 验证总时长与视频一致(±2 秒) ### 4. 将音频合并到视频 `bash ./scripts/merge-audio.sh [output_path] ` - 保留原始视频编码(直接复制,不重新编码) - 音频编码为 AAC 192kbps - 使用 -shortest 参数以较短者为准 - 验证输出同时包含视频与音频流 ## 时间控制策略 1. 生成所有片段,测量各自时长 2. 累加总语音时间并与视频对比 3. 若语音>105% 视频时长:压缩脚本或提高语速 4. 若语音<85% 视频时长:节奏可能显得仓促——增加细节或放慢语速 5. 拼接时留 0.3–0.5 秒间隙,目标总误差在 ±2 秒内 ## 前置依赖 若未安装,请先安装依赖: `bash pip3 install edge-tts # Microsoft neural TTS(免费,无需 API key) brew install ffmpeg # or apt-get install ffmpeg ` ## 输出 该技能将生成: 1. (with narration).mov —— 已内嵌旁白的视频 2. _voiceover.md` —— 带时间戳的脚本,可供参考或重新录制

数据来源ClawHub ↗ · 中文优化:龙虾技能库