← AI 百科

Unstructured:把 PDF、Word、HTML 等资料转成 AI 知识库可用文本

Skills/工作流 · GitHub项目
一句话:Unstructured 是文档解析和预处理工具,能处理 PDF、Word、HTML、PPT、图片等资料,常用于 RAG 知识库、客服机器人、企业资料库、合同分析和内容整理。

它是什么

AI 知识库最怕原始资料格式混乱:PDF 有表格、页眉、脚注、扫描图片,Word 有标题层级,网页有导航栏。Unstructured 的作用是先把这些文件切分和整理成更适合 LLM 检索、总结和问答的结构化文本。

适合干什么

  • 把公司制度、产品手册、售后文档整理进客服知识库
  • 把 PDF 报告转成 Markdown,再交给 AI 总结
  • 把合同、报价单、说明书批量解析成结构化内容
  • 给 Dify、AnythingLLM、LangChain、LlamaIndex 做文档预处理

不适合干什么

  • 扫描件和复杂表格不一定 100% 准确,需要人工抽查
  • 大批量文档处理要注意 CPU、内存和 OCR 成本
  • 含客户隐私或合同数据时,不要随便上传到第三方 API

常见误区

    和相似工具的区别

    • 和 Docling 比:Unstructured 生态成熟、格式覆盖广;Docling 在文档转换和结构化方面也很强。
    • 和 PyMuPDF 比:Unstructured 更适合知识库预处理;PyMuPDF 更适合底层 PDF 操作。
    • 和直接上传 Dify 比:先用 Unstructured 清洗,复杂 PDF 的检索质量通常更可控。

    入门步骤