wechat-article-extraction-mp-weixin-qq-com news-webpage-cleaning blog-post-parsing metadata-extraction-title-author-date multiple-output-formats-markdown-json-plain-text batch-processing-support — wechat-article-提取ion-mp-weixin-qq-com news-网页page-清理ing b记录-post-parsing metadata-提取ion-title-author-date multiple-输出-格式化s-markdown-json-plAIn-text batch-processing-support
v1.0.0基于三引擎设计,从微信文章、新闻和博客网页提取干净内容,支持标题作者日期元数据,多格式和批量处理。
运行时依赖
安装命令
点击复制本土化适配说明
wechat-article-extraction-mp-weixin-qq-com news-webpage-cleaning blog-post-parsing metadata-extraction-title-author-date multiple-output-formats-markdown-json-plain-text batch-processing-support — wechat-article-提取ion-mp-weixin-qq-com news-网页page-清理ing b记录-post-parsing metadata-提取ion-title-author-date multiple-输出-格式化s-markdown-json-plAIn-text batch-processing-support 安装说明: 安装命令:["openclaw skills install web-fetch-vx"] 该技能用于微信、QQ相关操作,可能需要相应的平台账号或API密钥
技能文档
网页 Content 提取器 - 网页内容提取器
版本: 2.0 作者: OpenClaw Team 更新日期: 2026-03-15 许可证: MIT
📦 技能元数据 name: 网页-content-提取器 version: 2.0.0 description: 从微信文章/博客/新闻网页提取干净内容,去除广告和侧边栏 category: 内容处理 tags: [网页提取,内容清洗,微信文章,Markdown] author: OpenClaw Team license: MIT
🎯 功能概述
基于 Readability + Firecrawl + Defuddle 三引擎的网页内容提取工具,专为中文内容优化。支持微信文章、新闻网站、博客等多种来源,自动去除广告/导航/侧边栏,输出干净的 Markdown 格式。
核心能力:
✅ 微信文章提取(mp.weixin.qq.com) ✅ 新闻网页清洗 ✅ 博客文章解析 ✅ 元数据提取(标题/作者/日期) ✅ 多格式输出(Markdown/JSON/纯文本) ✅ 批量处理支持 🚀 快速开始 基础调用 # OpenClaw 工具调用 结果 = 网页_fetch( url="https://mp.weixin.qq.com/s/xxx", 提取Mode="markdown", maxChars=8000 )
完整参数 参数 类型 必填 默认值 说明 url str ✅ - 网页 URL 提取Mode str ❌ "markdown" 输出格式(markdown/text/json) maxChars int ❌ 8000 最大字符数 includeMetadata bool ❌ true 是否包含元数据 timeout int ❌ 30 超时时间(秒) 📤 输入输出 输入示例 { "url": "https://mp.weixin.qq.com/s/abcdefg", "提取Mode": "markdown", "maxChars": 8000, "includeMetadata": true }
输出示例 { "成功": true, "url": "https://mp.weixin.qq.com/s/abcdefg", "title": "文章标题", "author": "作者名", "publishDate": "2026-03-15", "content": "Markdown 格式的正文内容...", "wordCount": 2500, "readTime": "10 分钟", "images": ["https://..."], "提取Time": 0.8 }
🔧 技术架构 三引擎设计 用户请求 ↓ ┌────────────────┐ │ 路由判断层 │ └────────────────┘ ↓ ┌──────────────┼──────────────┐ ↓ ↓ ↓ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ 网页_fetch│ │ defuddle│ │ browser │ │ (快速) │ │ (专业) │ │ (兜底) │ └─────────┘ └─────────┘ └─────────┘ ↓ ↓ ↓ ┌────────────────┐ │ 结果聚合层 │ └────────────────┘ ↓ 返回用户
引擎对比 引擎 速度 成功率 适用场景 网页_fetch <1s 70% 微信文章/通用网页 defuddle <1s 75% 博客/新闻网站 browser 5-10s 90% 复杂 SPA/动态页面 📋 使用场景 场景 1:微信文章提取 结果 = 网页_fetch( url="https://mp.weixin.qq.com/s/xxx", 提取Mode="markdown" ) print(结果["content"])
场景 2:批量处理 urls = ["url1", "url2", "url3"] 结果s = [网页_fetch(url=u) for u in urls]
场景 3:带元数据提取 结果 = 网页_fetch( url="https://example.com/article", includeMetadata=True ) print(f"标题:{结果['title']}") print(f"作者:{结果['author']}") print(f"字数:{结果['wordCount']}")
⚠️ 限制与注意事项 不支持的场景 ❌ 需要登录的页面 ❌ 付费墙内容 ❌ 验证码保护的页面 ❌ 纯 JavaScript 渲染的 SPA(需用 browser 引擎) 速率限制 域名类型 请求间隔 并发限制 微信文章 2 秒 1 新闻网站 1 秒 3 博客 1 秒 5 合规要求 仅提取公开可访问内容 尊重 ro机器人s.txt 协议 不用于商业用途(除非获得授权) 保留原作者署名 🎛️ 高级配置 自定义 User-代理 结果 = 网页_fetch( url="https://example.com", user代理="Mozilla/5.0 ..." )
代理配置 结果 = 网页_fetch( url="https://example.com", proxy="http://proxy:port" )
缓存控制 # 启用缓存(1 小时) 结果 = 网页_fetch(url, 缓存=True, ttl=3600)
# 强制刷新 结果 = 网页_fetch(url, 缓存=False)
📊 性能指标 指标 数值 平均响应时间 0.8 秒 P95 响应时间 2.5 秒 成功率 85% 缓存命中率 60% 🔍 故障排查 问题 1:提取内容为空
原因:页面需要 JavaScript 渲染 解决:切换到 browser 引擎
问题 2:微信文章提取失败
原因:链接过期或有反爬 解决:
检查链接是否有效 尝试 browser 引擎 手动复制内容 问题 3:提取内容不完整
原因:maxChars 限制 解决:增加 maxChars 参数或分页处理
📚 依赖项 { "readability": "^0.4.4", "firecrawl": "^1.0.0", "defuddle": "^3.0.0" }
🤝 贡献指南 Fork 本仓库 创建功能分支 (git 检查out -b feature/AmazingFeature) 提交更改 (git commit -m '添加 some AmazingFeature') 推送到分支 (git push origin feature/AmazingFeature) 开启 Pull 请求 📄 许可证
MIT License - 详见 LICENSE
📞 支持 文档: https://docs.OpenClaw.AI/技能s/网页-content-提取器 问题反馈: https://github.com/OpenClaw/OpenClaw/issues 社区: https://discord.com/invite/clawd
最后更新: 2026-03-15 维护状态: ✅ 活跃维护