Skeleton-of-Thoughts 思想骨架:提高LLM的效率和答案质量


Skeleton-of-Thoughts 思想骨架

“思想骨架:大型语言模型可以并行解码” 提出了一种新的方法来解决LLM中常遇到的生成延迟问题。

这个新方法叫做“思想骨架”(SoT)。这篇论文指出,LLM中高生成延迟的原因之一是顺序解码方法。就是顺序一个个生成词语,导致计算时间很长。为了解决这个问题,研究人员提出了SoT方法,它教导LLM先生成答案的“骨架”,然后通过并行调用或批处理来并行生成每个“骨架点”的内容。这个方法的好处有好几个哦!

  1. 首先,SoT大大提高了生成速度,研究人员观察到在11个不同的法学硕士中,使用SoT可以加速高达2.39倍!这个加速是通过并行化生成过程来实现的,从而减少了总体延迟。其次,SoT有潜力提高各种问题类型的答案质量,让答案更加多样而相关。通过组织输出内容,SoT提高了答案生成的质量。

  2. 论文还挑战了大家普遍认为法学硕士必须顺序解码的假设,证明了在现有的法学硕士中可以实现并行解码,无需对模型、系统或硬件做任何更改,这真是令人惊叹!

  3. 当然,论文也提到了一些限制。首先,评估是在一个名为Vicuna-80的数据集上进行的,可能无法代表所有问题类型和主题。此外,评估也只限于11个LLM,可能不能代表所有大型语言模型。这引发了一些关于研究结果是否适用于其他数据集和模型的疑问。

  4. 另一个限制是与其他方法或基准方法的直接比较缺失。如果没有这样的比较,就很难评估SoT在提高效率和答案质量方面的有效性。提供基准方法可以更好地理解SoT相对其他方法的性能。

  5. 论文还依赖主观评价指标(例如法学硕士法官的偏好)来评估答案质量。虽然人类的评价很有价值,但它是主观的,并且可能受到各种因素的影响。缺乏客观的评估指标引发了人们对答案质量调查结果的可靠性和可重复性的担忧。

  6. 此外,论文没有完全分析SoT不能提供高质量答案的情况,了解这些限制和故障模式可以更全面地评估SoT的有效性。 尽管论文没有详细分析提速的根本原因,但它提供了对SoT潜在加速的见解。对提速改进进行更深入的分析将增强效率研究结果的可信性。

总的来说,这篇研究论文介绍了SoT方法,这是一个有前景的方法,可以减少LLM的生成延迟,并有可能提高答案质量。研究结果表明,SoT可以提供相当大的加速并增强生成答案的多样性和相关性。但是,研究评估的局限性、缺乏基准方法、主观评估指标以及对失败案例和提速原因的不充分分析引发了人们对研究结果的可信度和适用性的担忧。需要进一步的研究和评估来验证和扩展这项研究的结果。

SoT 详解

我们能否在不对模型、系统或硬件进行任何更改的情况下加速现成的法学硕士?

人类并不总是按顺序思考问题并写下答案。相比之下,对于许多类型的问题,我们首先根据一些协议和策略推导出框架,然后添加证据和细节来细化和解释每个点。尤其是在正式场合,如提供咨询、参加考试、写论文等。
SoT 引导LLM先自己推导出一个骨架。基于骨架,法学硕士可以并行完成每个点,以便我们获得加速。

骨架阶段
SoT 首先使用骨架提示模板和原始问题组装骨架请求。编写骨架提示模板是为了指导LLM输出简明的答案骨架。然后,我们从LLM的骨架响应中提取B点。

骨架提示模板:为了使输出骨架简短且格式一致,以利于点提取的效率和方便,骨架提示模板(1)精确地描述了任务,(2)使用了两个简单的演示,并且( 3) 提供部分答案“1”。让法学硕士继续写作。我们发现,在大多数情况下,骨架响应都是所需的格式。因此,我们可以简单地使用正则表达式从骨架响应中提取点索引和点骨架。

点扩阶段
基于骨架,我们使用点扩展提示模板组装B个点扩展请求,并让LLM在每个点上并行扩展。对于仅具有 API 访问权限的专有模型,我们可以发出多个并行 API 调用。对于开源模型,我们让模型批量处理点扩展请求(在点扩展请求的左侧添加填充)。最后,在完成所有点后,我们将点扩展响应连接起来以获得最终答案。
  • 扩点提示模板:扩点提示模板描述了扩点任务并提供部分答案。我们还提供说明“用 1∼2 句话写非常简短”,以便法学硕士保持答案简洁。

思想骨架 site