网站首页
手机版

LLM超长上下文查询-性能评估实战

更新时间:2024-08-06 13:46作者:小乐

本文是对高基数情况下的基准查询分析一文进行翻译和重组的。描述了基于反馈的GPT自学习进化的基本概念,以及基于LangSmith的实践和操作。本系列合集,点击“链接”即可查看

在大语言模型(LLM)的应用中,有很多场景需要以结构化的方式呈现数据,其中信息抽取和查询分析是两个典型的例子。我们最近强调了通过更新文档和专用代码存储库进行信息提取的重要性。对于查询分析,我们还更新了相关文档。在这些场景中,数据字段可能包括字符串、布尔值、整数等。在这些类型中,处理高基数分类值(即枚举类型)是最具挑战性的。

所谓“高基数分类值”是指那些必须从有限数量的选项中选择的值。这些值不能任意指定,而必须来自预定义的集合。当这个集合中有效值的数量非常多时,我们称之为“高基数”。处理这些值之所以困难是因为LLM本身并不知道这些可能的值是什么。因此,我们需要向LLM 提供有关这些可能值的信息。如果忽略这一点,LLM可能会自行弥补这些值。对于只有几个可能值的情况,我们可以通过在提示中显式列出这些值来解决这个问题。然而,当可能的值非常大时,问题就变得复杂了。随着可能值数量的增加,LLM正确选择值的难度也随之增加。一方面,如果可能的值太多,它们可能不适合法学硕士的上下文窗口。另一方面,即使所有可能的值都能适合上下文,在处理大量上下文时,将它们全部包含在内也会导致处理速度变慢、成本增加、LLM 推理能力降低。我们最近深入研究了查询分析,并修改了文档以包含有关如何处理高基数类别值的页面。在本博客中,我们将深入研究几种实验方法并提供它们的性能基准测试结果。有关结果的概述,请访问LangSmithhttps://smith.langchain.com/public/8c0a4c25-426d-4582-96fc-d7def170be76/d ref=blog.langchain.dev。接下来我们详细介绍一下:

数据集概述详细的数据集可以在这里查看:https://smith.langchain.com/public/8c0a4c25-426d-4582-96fc-d7def170be76/d ref=blog.langchain.dev。为了模拟这个问题,我们假设一个场景:我们想要查找某个作者关于外星人的书籍。在这种情况下,作者字段是一个高基数分类变量——。有很多可能的值,但它们应该是特定的有效作者姓名。为了测试这一点,我们创建了一个包含作者姓名和常见别名的数据集。例如,“Harry Chase”可能是“Harrison Chase”的别名。我们希望智能系统能够处理这样的类名。有了这个名称和别名列表,我们又生成了10,000 个随机名称。需要注意的是,10000这个基数并不算太高。对于企业级系统,基数可能是数百万。使用这个数据集,我们提出一个问题:“哈利·蔡斯有哪些关于外星人的书?”我们的查询分析系统应该能够将这个问题解析为包含两个字段的结构化格式:主题和作者。在此示例中,预期输出为{"topic" : "aliens", "author" : "Harrison Chase"}。我们期望系统识别出没有名为Harry Chase 的作者,但Harrison Chase 可能就是用户的意思。通过此设置,我们可以针对我们创建的别名数据集进行测试,以检查它们是否正确映射到真实姓名。同时,我们还记录查询的延迟和成本。这种查询分析系统通常用于搜索,所以我们非常关心这两个指标。出于这个原因,我们还将所有方法限制为只能调用一次LLM。我们可能会在以后的文章中使用多个LLM 调用对方法进行基准测试。接下来,我们将介绍几种不同的方法及其性能。

完整的结果可以在LangSmith 中查看,并且可以在此处找到重现这些结果的代码。

基线测试首先,我们对LLM进行了基线测试,即直接要求LLM进行查询分析,而不提供任何有效的姓名信息。正如所料,没有一个问题得到正确回答。这是因为我们有意构建了一个需要通过别名查询作者的数据集。

上下文填充法在这种方法中,我们将所有10,000个合法作者姓名放入提示中,并要求LLM在进行查询分析时记住这些是合法作者姓名。由于上下文窗口的限制,某些模型(例如GPT-3.5)根本无法执行此任务。对于其他具有较长上下文窗口的模型,他们也很难准确选择正确的名称。 GPT-4 仅在26% 的情况下选择了正确的名称。它最常见的错误是提取名称但不更正它们。这种方法不仅速度慢,而且成本高,平均需要5 秒才能完成,总成本为8.44 美元。

Pre-LLM过滤方法我们测试的下一个方法是在将可能值列表传递给LLM之前对其进行过滤。这样做的好处是,它只将可能名称的子集传递给LLM,因此LLM 需要考虑的名称要少得多,希望能够让它更快、更便宜、更准确地完成查询分析。但这也增加了一种新的潜在故障模式—— 如果初始过滤出错怎么办?

基于嵌入的过滤我们最初使用的过滤方法是嵌入方法,并选择与查询最相似的10 个名称。请注意,我们将整个查询与名称进行比较,这不是理想的比较!我们发现,使用这种方法,GPT-3.5 能够正确处理57% 的情况。这种方法比以前的方法更快、更便宜,平均只需要0.76 秒即可完成,总成本仅为0.002 美元。

基于NGram 相似度的过滤方法我们使用的第二种过滤方法是对所有有效名称的3-gram 字符序列进行TF-IDF 向量化,并使用向量化的有效名称和向量化的用户输入相似度之间的余弦来选择最相关的10 个有效名称添加到模型提示。另请注意,我们将整个查询与名称进行比较,这不是理想的比较!我们发现使用这种方法,GPT-3.5 能够正确处理65% 的情况。这种方法也比以前的方法更快、更便宜,平均只需要0.57 秒即可完成,总成本仅为0.002 美元。

LLM 后选择方法我们测试的最后一种方法是在LLM 完成其初步查询分析后尝试纠正任何错误。我们首先对用户输入进行查询分析,而没有在提示中提供有关有效作者姓名的任何信息。这与我们最初所做的基线测试相同。然后,我们进行了后续步骤,获取作者字段中的姓名并找到最相似的有效姓名。

基于嵌入相似性的选择方法首先,我们使用嵌入方法执行相似性检查。我们发现,使用这种方法,GPT-3.5 能够正确处理83% 的情况。这种方法比以前的方法更快、更便宜,平均只需要0.66 秒即可完成,总成本仅为0.001 美元。

基于NGram相似度的选择方法最后,我们尝试使用3-gram向量化器进行相似度检查。我们发现,使用这种方法,GPT-3.5 能够正确处理74% 的情况。这种方法也比以前的方法更快、更便宜,平均只需要0.48 秒即可完成,总成本仅为0.001 美元。

结论我们对处理高基数分类值的查询分析方法进行了各种基准测试。我们限制自己只进行一次LLM 调用,以模拟现实世界的延迟限制。我们发现,使用LLM 后,基于嵌入相似性的选择方法表现最佳。还有其他方法值得进一步测试。特别是,有许多不同的方法可以在LLM 调用之前或之后找到最相似的分类值。此外,该数据集中的类别基础并不像许多企业系统所面临的那么高。该数据集大约有10,000 个值,而许多现实世界的系统可能需要处理数百万个基数。因此,对更高基数数据进行基准测试将非常有价值。

为您推荐

世界排名领先,麻省理工学院到底有多厉害?,麻省理工学院是干什么的

麻省理工学院作为综排TOP3的美国名校,是许多留学生选择名校的最佳选择之一。那么作为世界排名领先的麻省理工学院到底有多厉害?接下来立思辰留学云小编为你详细介绍。麻省理工((Massachusetts Institute of Technol

2024-08-06 13:49

世界名校介绍——美国 麻省理工学院(MIT) 美国麻省理工学院排名第几

学校简介麻省理工学院(Massachusetts Institute of Technology,缩写MIT)成立于1861年,位于美国马萨诸塞州波士顿附近的剑桥市,其吉祥物为海狸,代表动物界最擅长筑水坝的工程师。麻省理工素以理工闻名于世,

2024-08-06 13:49

加拿大的“MIT”,究竟是所什么样的大学?

麦克马斯特能成为加拿大的MIT是有理由的,胸怀大志力求突破的小伙伴要注意,心有多大世界就有多大,成为麦马的学生就是你走上人生巅峰应该踏出的步。论学术,麦马的实力不容置疑,论颜值,就这校园景色你沉醉了没?嗯,感觉这接下来的几年大学生活注定是不

2024-08-06 13:48

美国麻省理工学院,世界公认的最好的理工大学,亚裔占到了26%(美国麻省理工最好的专业)

麻省理工((Massachusetts Institute of Technology (MIT)—世界公认的最好的理工大学如果你自认为是科学天才,那么来到麻省理工,你就会受到打击,因为在这里,你会感到自己知道的知识原来是如此之少。麻省理工

2024-08-06 13:48

用于通用任务指令调优的参数高效稀疏制作

一、结论写在前面论文提出了参数高效的稀疏性改造(Parameter-Efficient Sparsity Crafting,PESC),它利用MoE架构将密集模型升级为稀疏模型。PESC在稀疏模型的MoE层中引入适配器,使得不修改每个专家的

2024-08-06 13:47

MH15/9冷热水高压清洗机,工程机械油脂残留物和污垢冲洗,高效

西安圣仕达清洁设备的MAHA高压清洗机,马哈热水清洗机,高温高压清洗机MH15/9已经是商业领域受欢迎的热水电动高压清洗机之一,并准备以重新设计的方式回归,让您更加喜欢它。在深入研究这款机器的特性之前,值得记住的是MAHA马哈品牌是农业和工

2024-08-06 13:47

加载中...