← AI 百科

模型量化

AI编程 · AI编程基础
一句话:通过降低模型数值精度,让大模型更省显存、更容易在本地设备运行。

它是什么

模型量化是把模型参数用更低精度表示,从而减少显存和存储占用。简单理解,就是把模型压缩成更轻的版本,让普通电脑也能跑起来,但可能牺牲一部分效果。

适合干什么

  • 本地部署用户
  • 显存有限的开发者
  • 想在笔记本运行模型的人
  • 需要比较模型速度和效果的人

不适合干什么

  • 完全追求最高精度的评测
  • 不愿意做效果对比的人
  • 以为量化后效果完全不变的人

普通人怎么用

  • 先看设备显存和内存
  • 选择常见量化版本
  • 用同一批问题测试多个版本
  • 记录速度、内存占用和回答质量
  • 选一个够用而不是最大的版本

进阶用户怎么用

  • 为不同任务使用不同量化级别
  • 建立固定评测集
  • 关注长文本、代码和数学任务的退化
  • 在生产环境监控延迟和错误率

常见误区

  • 只追求最小文件,不看效果损失
  • 不同模型不同量化混着比较
  • 没有固定测试题
  • 把量化理解成万能加速

和相似工具的区别

  • 量化 vs 蒸馏:量化主要降低数值精度,蒸馏通常是用大模型训练小模型,两者目标都可能是降成本但方法不同。
  • 量化 vs 模型压缩:模型压缩是更大的概念,量化是其中一种常见方法。

入门步骤

  • 确认设备配置
  • 选两个量化版本
  • 准备10个真实问题
  • 比较速度和质量
  • 保留最平衡的一版

推荐工具(第三方)

Ollama、LM Studio、llama.cpp、Hugging Face、Open WebUI