Jailbreak Protection
Semantic Router 包含先进的 jailbreak 检测功能,可识别并拦截试图绕过 AI 安全措施的对抗性 prompt。该系统使用经过微调的 BERT 模型来检测各种 jailbreak 技术和 prompt injection 攻击。
概览
Jailbreak 防护系统:
- 检测 对抗性 prompt 和 jailbreak 尝试
- 拦截 恶意请求,使其无法到达 LLM
- 识别 prompt injection 和操纵技术
- 提供 安全决策的详细推理
- 集成 到路由 decision 中,以增强安全性
Jailbreak 检测类型
系统可以识别各种攻击模式:
直接 Jailbreak
- 角色扮演攻击("你现在是 DAN...")
- 指令覆盖("忽略所有之前的指令...")
- 安全规避尝试("假装你没有任何安全准则...")