11-LLM 应用安全红队与威胁建模¶
面向岗位:LLM 应用工程、Agent 工程、AI 平台、AI 安全相关岗位
一、为什么这章是强信号¶
LLM 应用和普通 Web 服务不同,除了常规安全问题,还多了:
- Prompt Injection
- 越狱
- 工具滥用
- 数据泄露
- 幻觉带来的错误行动
如果你能说清威胁建模、红队测试、护栏与回滚,这会明显拉开和普通“会做聊天页”的候选人差距。
二、威胁建模最小框架¶
建议从 4 个面向看:
- 输入面:用户输入、网页、文件、检索内容
- 模型面:Prompt、上下文、工具调用策略
- 工具面:数据库、搜索、代码执行、外部 API
- 输出面:回答、动作、日志、审计
三、常见风险¶
| 风险 | 典型表现 | 影响 |
|---|---|---|
| Prompt Injection | 恶意输入改变系统行为 | 工具误调用、泄露系统提示词 |
| 越狱 | 绕过安全限制 | 违规输出 |
| 工具滥用 | 调用了不该调用的工具 | 数据损坏、异常操作 |
| 数据泄露 | 输出敏感信息 | 合规与隐私风险 |
| 幻觉行动 | 编造结果并继续执行 | 错误自动化行为 |
四、最小红队测试集¶
每个 LLM/Agent 项目建议至少准备:
- Prompt Injection 样例
- 越狱样例
- 越权工具调用样例
- 敏感信息诱导样例
- 幻觉式工具返回样例
五、护栏设计¶
常见护栏:
- 工具白名单
- 参数校验
- 输出过滤
- 人工确认
- 最大步数限制
- 高风险动作二次确认
六、面试中怎么讲¶
推荐结构:
- 先说威胁面
- 再说怎么测
- 再说护栏怎么设计
- 最后说出了问题怎么回滚和审计
七、自检清单¶
- 我知道至少 4 类 LLM 应用特有风险
- 我有一组最小红队测试集
- 我知道怎么做工具白名单和参数校验
- 我知道高风险动作如何接人工确认
结论¶
红队与威胁建模不是安全岗位专属技能。
对高质量 LLM/Agent 岗位来说,它已经逐渐变成基本工程素养。