百 AI 实战百科

Langfuse：给 AI 应用加日志、监控和效果评估

Skills/工作流 · GitHub项目

一句话：Langfuse 是一个开源 LLM 工程平台，用来记录 AI 请求、Prompt、输出、成本、延迟和评分。它适合已经开始做 AI 客服、AI Agent、RAG 知识库、自动化流程的团队，用来排查为什么回答错、哪里花钱多、哪个 Prompt 效果好。

它是什么

很多团队做 AI 应用时只看到最终回答，看不到中间发生了什么。Langfuse 会记录每次调用的输入、模型、输出、耗时、费用、用户反馈和链路，方便调试和优化。

适合干什么

监控 AI 客服为什么答错问题
对比不同 Prompt 和模型的成本与效果
记录 RAG 检索到了哪些文档，方便排查知识库问题
给 AI 自动化流程增加调用日志和质量评分

不适合干什么

不适合只偶尔用 ChatGPT 的个人用户，配置成本不值得
日志里可能包含客户隐私，必须做脱敏、权限控制和数据保留策略
不是替代模型的平台，它是监控和评估层

常见误区

和相似工具的区别

和普通日志系统比：Langfuse 更懂 LLM trace、Prompt、token、成本和评分。
和 Helicone 比：Langfuse 更偏完整 LLM 应用观测和评估；Helicone 更偏 API 网关和调用监控。
和手工 Excel 记录比：Langfuse 适合持续迭代；Excel 只适合早期少量测试。

入门步骤