OCR(文字识别)
一句话:把图片里的文字提取成可编辑文本,比如扫描的合同、截图里的文字、拍照的名片。
它是什么
OCR(Optical Character Recognition)是专门识别图片中文字的技术,把"图片里的字"变成"可以复制、编辑、搜索的文字"。现在很多AI工具自带OCR能力,不需要单独的OCR软件。
适合干什么
- 扫描件/截图转文字
- 批量处理纸质文档电子化
- 提取图片里的表格数据
不适合干什么
- 图片模糊、手写字迹潦草的情况,识别准确率会明显下降
普通人怎么用
直接把图片发给支持图片识别的AI工具(如Claude、ChatGPT),说"帮我把这张图里的文字提取出来",比找专门OCR软件更方便。
进阶用户怎么用
处理表格类图片时,明确要求AI"保持表格结构输出"(比如输出成Markdown表格或CSV格式),而不是把表格内容整段文字堆在一起。
常见误区
- 以为OCR能100%准确识别所有图片,实际图片质量、字体、排版复杂度都会影响准确率,重要内容要人工核对
- 把OCR和"理解图片内容"搞混,OCR只负责提取文字,不代表AI理解了这些文字的业务含义(那需要多模态理解能力)
和相似工具的区别
- 和多模态理解的区别:OCR专注于"提取文字",多模态是更广义的"理解图片"(包括看懂图表、描述画面、判断场景),OCR是多模态能力的一部分
入门步骤
- 准备清晰、光线充足的图片
- 发给支持图片的AI工具,说明想要提取文字还是保持特定格式
- 核对识别结果,尤其是数字、专有名词