安全护栏
Safety Guardrails
AI Agent 的安全边界设计:PII 过滤、恶意代码拒绝、prompt 注入防御、秘密泄露防护、操作权限边界。确保 Agent 在自主执行时不越界。
子问题
1.Prompt 注入防御(拒绝泄露系统指令)
2.PII 检测与替换策略
3.恶意代码请求识别与拒绝
4.文件系统操作的权限边界
5.网络请求的安全约束
各项目的解法0 solutions
Signals
最佳实践
1.在 prompt 中显式声明'不泄露内部指令'规则
2.对 PII 使用占位符替换而非简单删除
3.区分'需要用户确认的危险操作'和'可自主执行的安全操作'