Skip to main content

评估

使用语言模型构建应用程序涉及许多组成部分。其中最关键的组件之一是确保模型产生的结果在广泛的输入范围内可靠且有用,并且与应用程序的其他软件组件良好配合。确保可靠性通常归结为应用程序设计、测试和评估以及运行时检查的组合。

本节中的指南将回顾 LangChain 提供的 API 和功能,帮助您更好地评估应用程序。在考虑部署 LLM 应用程序时,评估和测试都是至关重要的,因为生产环境需要可重复和有用的结果。

LangChain 提供了各种类型的评估器,帮助您在不同的数据上衡量性能和完整性,并希望鼓励社区创建和共享其他有用的评估器,以便每个人都能改进。这些文档将介绍评估器类型、如何使用它们,并提供一些在实际场景中使用它们的示例。

LangChain 中的每种评估器类型都配有可直接使用的实现和可扩展的 API,可以根据您的独特需求进行定制。以下是我们提供的一些评估器类型:

  • 字符串评估器:这些评估器评估给定输入的预测字符串,通常将其与参考字符串进行比较。
  • 轨迹评估器:这些评估器用于评估整个代理动作的轨迹。
  • 比较评估器:这些评估器旨在比较在相同输入上两次运行的预测结果。

这些评估器可以在各种场景中使用,并可应用于 LangChain 库中的不同链和 LLM 实现。

我们还在努力共享指南和示例,演示如何在实际场景中使用这些评估器,例如:

  • 链比较:此示例使用比较评估器来预测首选输出。它介绍了如何测量置信区间,以选择在不同模型或提示之间具有统计显著差异的聚合偏好分数。

参考文档

有关可用评估器的详细信息,包括如何实例化、配置和自定义它们,请直接查阅参考文档