百 AI 实战百科

AI 数据脱敏

AI基础 · AI基础 / 数据安全 / 合规

一句话：把姓名、手机号、身份证号等敏感信息替换成不可识别的内容后再给AI处理，避免真实隐私信息被外部AI服务看到。

它是什么

把客户数据丢给外部AI（如ChatGPT、Claude）分析前，先把里面的姓名、电话、身份证、地址等敏感字段用假数据或占位符替换，处理完再把结果对回真实信息，这样既能用AI提效，又不会把真实隐私发到外部服务器。

适合干什么

需要用AI处理客户数据但担心隐私合规问题的团队
分析包含个人信息的表格/文档前

不适合干什么

数据本身不含任何敏感信息的场景（没必要多此一举）

普通人怎么用

处理数据前，先用查找替换把姓名换成"客户A/客户B"，手机号换成"1381234XXXX"这类格式一致但不真实的占位符，AI处理完的结果里占位符对应关系自己记录好。

进阶用户怎么用

生产环境建议做自动化脱敏流程（脚本批量替换+映射表管理），而不是每次手动改；涉及金融、医疗等强监管行业，脱敏方案要符合具体的合规要求，不能只是简单替换。

常见误区

以为把姓名删掉就算脱敏，实际上手机号、身份证、详细地址组合起来也能定位到具体个人，需要一起处理
以为脱敏后数据完全没有风险，实际上过度依赖单一脱敏方法也可能被反推，重要数据要评估风险等级选择合适的脱敏强度

和相似工具的区别

和完全不用AI处理敏感数据相比：脱敏是权衡效率和隐私风险的折中方案，不是万无一失，核心原则是"不需要给AI看的信息就不要给"

入门步骤

识别数据里哪些字段属于敏感信息
制定脱敏规则（替换成什么格式的占位符）
处理完成后再用映射表把结果对回真实数据