← AI 百科

OCR(文字识别)

AI基础 · AI基础 / OCR / 文档处理
一句话:把图片里的文字提取成可编辑文本,比如扫描的合同、截图里的文字、拍照的名片。

它是什么

OCR(Optical Character Recognition)是专门识别图片中文字的技术,把"图片里的字"变成"可以复制、编辑、搜索的文字"。现在很多AI工具自带OCR能力,不需要单独的OCR软件。

适合干什么

  • 扫描件/截图转文字
  • 批量处理纸质文档电子化
  • 提取图片里的表格数据

不适合干什么

  • 图片模糊、手写字迹潦草的情况,识别准确率会明显下降

普通人怎么用

直接把图片发给支持图片识别的AI工具(如Claude、ChatGPT),说"帮我把这张图里的文字提取出来",比找专门OCR软件更方便。

进阶用户怎么用

处理表格类图片时,明确要求AI"保持表格结构输出"(比如输出成Markdown表格或CSV格式),而不是把表格内容整段文字堆在一起。

常见误区

  • 以为OCR能100%准确识别所有图片,实际图片质量、字体、排版复杂度都会影响准确率,重要内容要人工核对
  • 把OCR和"理解图片内容"搞混,OCR只负责提取文字,不代表AI理解了这些文字的业务含义(那需要多模态理解能力)

和相似工具的区别

  • 和多模态理解的区别:OCR专注于"提取文字",多模态是更广义的"理解图片"(包括看懂图表、描述画面、判断场景),OCR是多模态能力的一部分

入门步骤

  • 准备清晰、光线充足的图片
  • 发给支持图片的AI工具,说明想要提取文字还是保持特定格式
  • 核对识别结果,尤其是数字、专有名词