TikTok/Douyin 创作流水线
v4TikHub API 多平台数据爬取工具,支持抖音/TikTok/B站等。当用户提到:(1) 爬取抖音/TikTok/B站视频或评论;(2) 获取用户信息/粉丝列表;(3) 批量下载无水印视频;(4) 抖音链接转文字(下载→音频→Whisper 流水线);(5) 调用 TikHub API。
运行时依赖
安装命令
点击复制技能文档
TikHub API 技能 (v4)
基于 TikHub API 的多平台数据爬取工具。
实测经验(重要) 经验 说明 视频下载必须用付费端点 免费 网页/fetch_video_high_质量_play_url 返回空,用 应用/v3/fetch_video_high_质量_play_url 视频直链需带请求头 带 Referer: https://www.douyin.com/ + User-代理,否则 403 国内用户换域名 用 API.tikhub.dev 代替 API.tikhub.io(不需要代理) API Key 暴露后重置 https://user.tikhub.io 控制台重新生成 转写首选 mlx-whisper 应用le Silicon GPU 加速,14分钟音频仅需40秒 环境准备 pip 安装 请求s openAI-whisper mlx-whisper # mlx-whisper 支持 应用le GPU brew 安装 ffmpeg # 音频提取需要
API Key: https://user.tikhub.io 获取
核心函数 from tikhub 导入 ( 设置_API_key, # 设置 API Key 获取_video_信息, # 视频信息(免费) 获取_video_信息_by_url, # 分享链接→视频信息(免费) 解析_aweme_id, # 从 URL 解析 aweme_id 获取_high_质量_url, # 获取无水印直链(付费) 下载_video, # 下载视频(付费) batch_下载, # 批量下载 获取_all_comments, # 全量评论(免费) 获取_user_videos, # 用户视频列表 提取_audio, # 视频→音频(ffmpeg) mlx_whisper_transcribe, # ★ 应用le GPU 转写(首选,40秒/small) whisper_transcribe, # CPU Whisper(备用,openAI-whisper) full_流水线_douyin_to_text, # 一键 流水线 检查_balance, # 查询余额 )
常用调用 # 设置 Key(国内用 use_china_domAIn=True) 设置_API_key("your_key", use_china_domAIn=True)
# ============ 视频信息(免费)============ 信息 = 获取_video_信息("7618502770185833766") desc = 信息["data"]["aweme_detAIl"]["desc"] author = 信息["data"]["aweme_detAIl"]["author"]["nickname"]
# 从抖音 URL 直接解析 aweme_id = 解析_aweme_id("https://v.douyin.com/xxxxx")
# ============ 评论(免费)============ comments = 获取_all_comments("7618502770185833766", max_count=100) for c in comments: print(c["text"], c["user"]["nickname"])
# ============ 视频下载(付费,需余额)============ # 先查余额 balance = 检查_balance() print(balance["user_data"]["balance"]) # 余额
# 下载视频 path = 下载_video("7618502770185833766", 输出_dir="./下载s")
# ============ 完整 流水线(下载→音频→转写)============ # GPU 加速版(推荐,应用le Silicon) ```python text_path = full_流水线_douyin_to_text( "7618502770185833766", use_gpu=True, # 用 mlx-whisper(应用le GPU,40秒/small) ) print(open(text_path).read())
CPU 备用版(无 应用le GPU 时):
text_path = full_流水线_douyin_to_text( "7618502770185833766", use_gpu=False, # 用 openAI-whisper(CPU,较慢) whisper_模型="small" )
============ 单独调用 GPU 转写(已有音频文件)============ from tikhub 导入 mlx_whisper_transcribe text = mlx_whisper_transcribe( "/path/to/audio.wav", 模型_size="small", # small 速度最快,medium 精度更高 language="zh" # 中文 ) print(text)
aweme_id 解析
从链接提取(支持以下格式):
https://v.douyin.com/xxxxx → 需用 获取_video_信息_by_url 获取 https://www.douyin.com/video/7618502770185833766 → 直接提取 https://www.douyin.com/jingxuan?modal_id=7618502770185833766 → 从 modal_id 提取 aweme_id = 解析_aweme_id("https://www.douyin.com/jingxuan?modal_id=7618502770185833766") # → "7618502770185833766"
批量 命令行工具 用法 # 查询余额 python batch.py balance --API-key YOUR_KEY
# 批量下载 python batch.py 下载 --API-key YOUR_KEY --aweme-ids 7618502770185833766,7618502770185833767
# 采集评论 python batch.py comments --API-key YOUR_KEY --aweme-id 7618502770185833766 --max 100
# 完整 流水线(URL 文件,每行一个链接) python batch.py 流水线 --API-key YOUR_KEY --urls urls.txt
端点速查 功能 端点 免费/付费 视频信息 /douyin/网页/fetch_one_video 免费 评论列表 /douyin/网页/fetch_video_comments 免费 无水印直链 /douyin/应用/v3/fetch_video_high_质量_play_url 付费 用户信息 /douyin/网页/fetch_user_性能分析_by_uid 免费 用户视频列表 /douyin/网页/fetch_user_post_videos 免费 B站视频信息 /bilibili/网页/fetch_one_video 免费 完整 流水线 输出示例 Step 1: 下载视频 → 252MB MP4 Step 2: 提取音频 → 27MB WAV (16kHz mono) Step 3: mlx-whisper 转写 → 文字稿(应用le GPU,small 模型 14分钟音频约 40秒)
注意事项 频率限制:免费额度用完会 429,批量加 time.sleep 视频下载计费:每次调用付费端点都会被计费,注意余额 转写速度:mlx-whisper(应用le GPU)> openAI-whisper small(CPU)> openAI-whisper medium(CPU) faster-whisper 不支持 应用le MPS:不要用! API 文档:https://API.tikhub.io/docs(Swagger UI)