11-LLM 应用安全红队与威胁建模¶

面向岗位：LLM 应用工程、Agent 工程、AI 平台、AI 安全相关岗位

一、为什么这章是强信号¶

LLM 应用和普通 Web 服务不同，除了常规安全问题，还多了：

Prompt Injection
越狱
工具滥用
数据泄露
幻觉带来的错误行动

如果你能说清威胁建模、红队测试、护栏与回滚，这会明显拉开和普通“会做聊天页”的候选人差距。

二、威胁建模最小框架¶

建议从 4 个面向看：

输入面：用户输入、网页、文件、检索内容
模型面：Prompt、上下文、工具调用策略
工具面：数据库、搜索、代码执行、外部 API
输出面：回答、动作、日志、审计

三、常见风险¶

风险	典型表现	影响
Prompt Injection	恶意输入改变系统行为	工具误调用、泄露系统提示词
越狱	绕过安全限制	违规输出
工具滥用	调用了不该调用的工具	数据损坏、异常操作
数据泄露	输出敏感信息	合规与隐私风险
幻觉行动	编造结果并继续执行	错误自动化行为

四、最小红队测试集¶

每个 LLM/Agent 项目建议至少准备：

Prompt Injection 样例
越狱样例
越权工具调用样例
敏感信息诱导样例
幻觉式工具返回样例

五、护栏设计¶

常见护栏：

工具白名单
参数校验
输出过滤
人工确认
最大步数限制
高风险动作二次确认

六、面试中怎么讲¶

推荐结构：

先说威胁面
再说怎么测
再说护栏怎么设计
最后说出了问题怎么回滚和审计

七、自检清单¶

我知道至少 4 类 LLM 应用特有风险
我有一组最小红队测试集
我知道怎么做工具白名单和参数校验
我知道高风险动作如何接人工确认

结论¶

红队与威胁建模不是安全岗位专属技能。
对高质量 LLM/Agent 岗位来说，它已经逐渐变成基本工程素养。