跳转至

11-LLM 应用安全红队与威胁建模

面向岗位:LLM 应用工程、Agent 工程、AI 平台、AI 安全相关岗位


一、为什么这章是强信号

LLM 应用和普通 Web 服务不同,除了常规安全问题,还多了:

  • Prompt Injection
  • 越狱
  • 工具滥用
  • 数据泄露
  • 幻觉带来的错误行动

如果你能说清威胁建模、红队测试、护栏与回滚,这会明显拉开和普通“会做聊天页”的候选人差距。


二、威胁建模最小框架

建议从 4 个面向看:

  1. 输入面:用户输入、网页、文件、检索内容
  2. 模型面:Prompt、上下文、工具调用策略
  3. 工具面:数据库、搜索、代码执行、外部 API
  4. 输出面:回答、动作、日志、审计

三、常见风险

风险 典型表现 影响
Prompt Injection 恶意输入改变系统行为 工具误调用、泄露系统提示词
越狱 绕过安全限制 违规输出
工具滥用 调用了不该调用的工具 数据损坏、异常操作
数据泄露 输出敏感信息 合规与隐私风险
幻觉行动 编造结果并继续执行 错误自动化行为

四、最小红队测试集

每个 LLM/Agent 项目建议至少准备:

  1. Prompt Injection 样例
  2. 越狱样例
  3. 越权工具调用样例
  4. 敏感信息诱导样例
  5. 幻觉式工具返回样例

五、护栏设计

常见护栏:

  • 工具白名单
  • 参数校验
  • 输出过滤
  • 人工确认
  • 最大步数限制
  • 高风险动作二次确认

六、面试中怎么讲

推荐结构:

  1. 先说威胁面
  2. 再说怎么测
  3. 再说护栏怎么设计
  4. 最后说出了问题怎么回滚和审计

七、自检清单

  • 我知道至少 4 类 LLM 应用特有风险
  • 我有一组最小红队测试集
  • 我知道怎么做工具白名单和参数校验
  • 我知道高风险动作如何接人工确认

结论

红队与威胁建模不是安全岗位专属技能。
对高质量 LLM/Agent 岗位来说,它已经逐渐变成基本工程素养。