Sentinel AI 防火墙保护您的 Open Claw 代理免受提示注入、越狱、恶意技能输出和数据泄露的影响 —— 自动、每条消息和工具结果。
它的作用是什么
Sentinel 拦截代理生命周期中的三个关键点:
UserPromptSubmit —— 用户输入在代理处理之前被清洗
PreToolUse —— 扫描代理即将发送到工具的内容,阻止数据泄露在会话离开之前
PostToolUse —— 扫描工具/技能响应在到达代理之前,捕获恶意技能尝试通过精心设计的输出劫持代理
PreToolUse 是对恶意 Clawhub 技能攻击模式的主要防御,其中一个受损的技能返回一个精心设计的响应,旨在接管代理或窃取会话数据。
设置
在 sentinel-proxy.skyblue-soft.com 注册 —— 免费的 Starter 级别可用,无需信用卡。
export SENTINEL_API_URL=https://sentinel.ircnet.us
export SENTINEL_KEY=sk_live_...
将它们添加到您的 shell 配置文件或 .env 文件中,以便它们在会话之间保持。
openclaw skills install sentinel
就这样了。引导钩子将在下一次代理启动时验证您的凭据。
透明代理模式(推荐)
为了获得完整的保护,包括扫描代理发送到外部工具的内容 —— 将您的 LLM 流量路由通过 Sentinel 的透明代理。
Sentinel 位于 Open Claw 和 Anthropic API 之间,扫描双向的所有内容,代理代码无需更改。
export ANTHROPIC_BASE_URL=https://sentinel.ircnet.us/v1
export ANTHROPIC_API_KEY=sk_live_... # 您的 Sentinel 密钥在此替换您的 Anthropic 密钥
您的代理使用 Anthropic SDK 与之前一样。
Sentinel 代理请求,扫描工具结果在返回到您的代理之前,并以零开销传递干净的流量。
检测层
每个清洗请求都经过三个层:
文本归一化 —— 去除不可见字符、Unicode 同音字、bidi 重写和 Unicode 标签块,然后扫描
快速路径正则表达式 —— 22 个模式捕获高置信度攻击(权限劫持、提示提取、人格转变、工具滥用)以近零延迟
深度路径向量相似度 —— 语义嵌入与 30+ 攻击签名在 pgvector 中进行比较;捕获绕过正则表达式的新攻击
操作
操作 含义 钩子行为
clean 无威胁检测 内容通过
flagged 边缘 —— 高于标志阈值 内容通过,警告日志
neutralized 攻击检测并重写 安全版本使用
blocked 高置信度攻击(相似度 > 0.82) 内容被拒绝,代理受保护
清洗等级
钩子使用标准等级作为默认值。
要切换到严格模式(较低的阈值,更激进的):
export SENTINEL_TIER=strict
日志记录
Sentinel 不记录或存储干净请求的内容。
标记、中和和阻塞事件由钩子脚本本地记录,包括威胁评分和采取的操作。