百 AI 实战百科

OCR（文字识别）

AI基础 · AI基础 / OCR / 文档处理

一句话：把图片里的文字提取成可编辑文本，比如扫描的合同、截图里的文字、拍照的名片。

它是什么

OCR（Optical Character Recognition）是专门识别图片中文字的技术，把"图片里的字"变成"可以复制、编辑、搜索的文字"。现在很多AI工具自带OCR能力，不需要单独的OCR软件。

适合干什么

扫描件/截图转文字
批量处理纸质文档电子化
提取图片里的表格数据

不适合干什么

图片模糊、手写字迹潦草的情况，识别准确率会明显下降

普通人怎么用

直接把图片发给支持图片识别的AI工具（如Claude、ChatGPT），说"帮我把这张图里的文字提取出来"，比找专门OCR软件更方便。

进阶用户怎么用

处理表格类图片时，明确要求AI"保持表格结构输出"（比如输出成Markdown表格或CSV格式），而不是把表格内容整段文字堆在一起。

常见误区

以为OCR能100%准确识别所有图片，实际图片质量、字体、排版复杂度都会影响准确率，重要内容要人工核对
把OCR和"理解图片内容"搞混，OCR只负责提取文字，不代表AI理解了这些文字的业务含义（那需要多模态理解能力）

和相似工具的区别

和多模态理解的区别：OCR专注于"提取文字"，多模态是更广义的"理解图片"（包括看懂图表、描述画面、判断场景），OCR是多模态能力的一部分

入门步骤

准备清晰、光线充足的图片
发给支持图片的AI工具，说明想要提取文字还是保持特定格式
核对识别结果，尤其是数字、专有名词