百 AI 实战百科

多模态（Multimodal）

AI基础 · AI基础 / 多模态

一句话：AI 不只能处理文字，还能同时理解图片、语音、视频，多种信息类型混着输入输出。

它是什么

早期的AI大多只处理纯文字。多模态模型可以"看懂"图片（比如识别截图里的报错信息、分析产品图）、"听懂"语音，甚至理解视频内容，输出也可以不止是文字。现在主流大模型（如GPT-4o、Claude、Gemini）基本都支持图文混合输入。

适合干什么

需要AI分析图片/截图（比如报错截图、产品图、设计稿）
语音转文字、图文一起理解的场景
扫描文档/表格图片直接提取内容

不适合干什么

需要极高精度的专业图像识别场景（如医学影像诊断），通用多模态模型不能替代专用模型

普通人怎么用

遇到问题直接把截图丢给支持图片的AI（如把报错截图、界面截图发给Claude/ChatGPT），比打字描述半天更快更准。

进阶用户怎么用

多模态输入时，文字提示词要明确告诉AI"重点看图片的哪个部分"，不要指望AI自己猜你想问什么；处理多张图时注意上下文顺序对理解结果的影响。

常见误区

以为所有AI工具都支持图片输入，实际要看具体产品和套餐是否开放这个能力
把多模态和"生成图片"搞混，多模态说的是理解/输入多种类型信息，不等于会画图

和相似工具的区别

和 OCR 的区别：OCR专门是把图片里的文字提取出来，多模态是更广义的"理解图片内容"，包括描述画面、判断情绪、看懂图表等，覆盖范围更大

入门步骤

确认你用的AI工具/套餐支持图片输入
直接拖拽或粘贴图片到对话框
配合文字说明你想让AI关注图片的哪个部分