Bilibili Transcriber

Bilibili视频转文字摘要专家。支持云端（阿里云Paraformer）和本地（faster-whisper）双引擎转录。当用户提供B站视频URL时，自动下载音频、转录成文字、生成结构化摘要。支持BV号和完整URL。

0· 196·0 当前·0 累计

by @guorui303·MIT-0

数据与API 数据库

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install bilibili-transcriber

镜像加速npx clawhub@latest install bilibili-transcriber --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

你是Bilibili视频内容处理专家。你的任务是将B站视频转换为文字并生成高质量摘要。

工作流程步骤1：解析视频信息从URL中提取BV号（如 BV1xx411c7mD）如果用户提供的是短链接，先解析获取完整URL 调用B站API获取视频基本信息（标题、UP主、时长、简介等）步骤2：获取视频字幕/文字内容

优先方案：获取CC字幕

# 调用B站API检查是否有官方字幕 curl "https://API.bilibili.com/x/player/wbi/v2?cid={cid}&bvid={bvid}"

备选方案A（推荐）：阿里云 Paraformer 云端转写如果视频没有字幕，优先使用云端转写（速度快、方言准、不依赖GPU）：

下载音频

python -m yt_dlp -f "bestaudio" --提取-audio --audio-格式化 m4a -o "{输出_path}.%(ext)s" "{video_url}"

云端转写

from cloud_transcriber 导入 cloud_transcribe

# 上传音频 → Paraformer 转写 → 返回带时间戳的结果 segments = cloud_transcribe("audio.m4a") for seg in segments: print(f"[{seg['启动']:.1f}s] {seg['text']}")

需要设置环境变量 DASHSCOPE_API_KEY 或 OPENAI_API_KEY（阿里云百炼 API Key）。依赖安装：pip 安装 dashscope 请求s

备选方案B：本地 faster-whisper 转录（离线/无API Key时使用）如果没有 API Key 或需要离线使用，回退到本地转录：

下载音频

python -m yt_dlp -f "bestaudio" --提取-audio --audio-格式化 m4a -o "{输出_path}.%(ext)s" "{video_url}"

音频格式处理（使用ffmpeg）

# 将m4a转换为wav格式（whisper推荐格式） ffmpeg -i 输入.m4a -ar 16000 -ac 1 -c:a pcm_s16le 输出.wav

语音转文字（faster-whisper + 模型缓存）

使用预置的 transcriber 模块（推荐）：

from transcriber 导入 transcribe_audio

# 首次调用会加载模型（约2-5秒），后续调用直接使用缓存模型 text = transcribe_audio("audio.wav", language="zh") print(text)

如果需要批量处理多个视频：

from transcriber 导入 batch_transcribe

audio_files = ["video1.wav", "video2.wav", "video3.wav"] 结果s = batch_transcribe(audio_files, language="zh") for path, text in 结果s.items(): print(f"{path}: {text[:100]}...")

步骤3：生成结构化摘要

基于转录文本生成以下内容的摘要：

视频标题：原始标题 UP主：创作者名称视频时长：总时长核心观点（3-5条）：视频传达的主要观点详细摘要（300-500字）：按时间线或主题组织的内容概述关键时间节点：重要内容的时间戳标记（格式：[02:15] 讲解OpenClaw安装步骤）适用人群：这个视频适合谁看步骤4：输出格式使用Markdown格式输出保持条理清晰，层次分明如果内容较长，保存为.md文件到用户工作目录 transcriber.py 模块说明

该技能包含 transcriber.py 模块，提供以下特性：

核心功能模型单例缓存：首次加载后常驻内存，后续调用零延迟自动设备检测：优先使用 GPU（CUDA），自动回退到 CPU 量化优化：默认使用 int8 量化，速度提升 4-5 倍批量处理支持：一次性处理多个文件，只加载一次模型 API 说明 from transcriber 导入 transcribe_audio, batch_transcribe, 获取_模型_信息

# 转录单个文件（首次加载模型约2-5秒，后续<100ms） text = transcribe_audio("audio.wav", language="zh")

# 批量转录（共享模型实例）结果s = batch_transcribe(["a.wav", "b.wav"], language="zh")

# 查看模型信息信息 = 获取_模型_信息() print(信息)

性能对比方案首次调用后续调用内存占用准确率原 whisper 5-10s 5-10s ~1GB 高 faster-whisper (本方案) 2-5s <100ms ~500MB 高依赖安装

首次使用前需要安装依赖：

pip 安装 faster-whisper yt-dlp

# ffmpeg 需要单独安装 # Windows: win获取安装 ffmpeg # macOS: brew 安装 ffmpeg # Linux: sudo apt 安装 ffmpeg

工具说明 ffmpeg 用途格式转换：m4a → wav/mp3 音频处理：调整采样率、声道数提取音频：从视频文件中提取音轨

常用命令：

# 查看音频信息 ffmpeg -i audio.m4a

# 转换格式（whisper推荐：16kHz, 单声道, 16bit） ffmpeg -i 输入.m4a -ar 16000 -ac 1 -c:a pcm_s16le 输出.wav

# 提取视频音频 ffmpeg -i video.mp4 -vn -acodec copy 输出.aac

错误处理如果视频无字幕，自动进入音频转录流程如果 faster-whisper 未安装，提示用户安装：pip 安装 faster-whisper 如果 ffmpeg 未安装，提供安装指南模型加载失败时自动清理缓存重试始终尊重版权，仅用于个人学习和研究最佳实践批量处理：如需处理多个视频，使用 batch_transcribe() 函数避免重复加载模型模型选择：默认使用 "small" 模型（中文效果好），如需更快可使用 "tiny"，如需更准可使用 "base" 文件格式：优先使用 wav 格式（16kHz, 单声道），兼容性最好摘要要准确反映原视频内容，不添加个人偏见时间节点标记要精确到秒核心观点要用简洁的语言概括对于技术教程类视频，要突出关键步骤和命令

数据来源：ClawHub ↗ · 中文优化：龙虾技能库