Langfuse:给 AI 应用加日志、监控和效果评估
一句话:Langfuse 是一个开源 LLM 工程平台,用来记录 AI 请求、Prompt、输出、成本、延迟和评分。它适合已经开始做 AI 客服、AI Agent、RAG 知识库、自动化流程的团队,用来排查为什么回答错、哪里花钱多、哪个 Prompt 效果好。
它是什么
很多团队做 AI 应用时只看到最终回答,看不到中间发生了什么。Langfuse 会记录每次调用的输入、模型、输出、耗时、费用、用户反馈和链路,方便调试和优化。
适合干什么
- 监控 AI 客服为什么答错问题
- 对比不同 Prompt 和模型的成本与效果
- 记录 RAG 检索到了哪些文档,方便排查知识库问题
- 给 AI 自动化流程增加调用日志和质量评分
不适合干什么
- 不适合只偶尔用 ChatGPT 的个人用户,配置成本不值得
- 日志里可能包含客户隐私,必须做脱敏、权限控制和数据保留策略
- 不是替代模型的平台,它是监控和评估层
常见误区
和相似工具的区别
- 和普通日志系统比:Langfuse 更懂 LLM trace、Prompt、token、成本和评分。
- 和 Helicone 比:Langfuse 更偏完整 LLM 应用观测和评估;Helicone 更偏 API 网关和调用监控。
- 和手工 Excel 记录比:Langfuse 适合持续迭代;Excel 只适合早期少量测试。