1. 结论在上一篇论文中,我们提出了KNOWAGENT,一个通过将外部行为知识纳入合成轨迹来减少规划错觉的框架。本文的技术包括使用动作知识来指导模型的动作生成,将这些知识转换为文本以更深入地理解模型,并使用知识实现持续改进,其中涉及采用基于自学习的阶段。这种多层次的方法不仅增强了代理的规划能力,而且在复杂场景中也被证明是有效的。本文对不同模型的实验表明,KNOWAGENT 可以有效地竞争或超越其他基线技术,并显示出集成外部操作知识以简化规划过程并提高性能的优势。
2.论文简介2.1论文背景随着人工智能的进步,语言代理在解决复杂问题中变得越来越重要。这些代理围绕大规模模型(LLM) 构建,通过任务分解、反射、协作分工和使用外部工具等各种策略来增强任务规划能力。尽管当前的提示技术可以有效地为某些闭源语言模型提供足够的规划能力,但这些技术往往缺乏模型固有的理解能力及其训练有素的知识范围。为了满足各个领域(问答、网页浏览、机器人等)的广泛应用和定制的需求,研究人员正在考虑将代理调整作为增强模型功能的一种方式。这包括通过特定于任务的轨迹合成来微调模型,以允许其采取不同的有效行动来完成所包含的任务,从而增强其处理复杂情况的能力。
然而,在执行规划任务时仍然存在一些挑战,特别是在开源模型中。模型经常生成违反既定知识规则和常识的计划,该论文将这种现象称为“计划错觉”。这是因为模型做了不必要的或不一致的事情,例如“尝试在不执行搜索操作的情况下查找信息”或“尝试从表中选择一个苹果而不首先检查表和苹果是否存在”描述了可能生成的情况。动作序列。
为了解决这些问题,本文提出了KNOWAGENT,其重点是利用外部动作知识增强合成轨迹,旨在解决规划错觉。
2.2 论文计划论文工作基于以下主要步骤。 首先,本文创建了一个广泛的行动知识库,整合了与特定任务相关的行动计划知识。该数据库充当外部信息存储库,指导模型的动作生成过程。其次,本文将行为知识转换为文本,使模型能够深入理解这些知识并利用它来创建行为轨迹。最后,通过基于知识的自学习阶段,本文利用模型迭代过程中形成的轨迹来不断提高对动作知识的理解和应用。这个过程不仅增强了智能体的规划能力,而且提高了其在复杂情况下的应用潜力。
2.2.1 定义行动知识行动:包含法学硕士为完成特定任务必须执行的离散行动。
操作规则:概述确定模型中操作转换的逻辑和顺序的规则。这些规则根据操作之间的独特关系或特定任务要求直接确定允许的操作转换。
动作知识:动作知识由定义的动作Ea(用(Ea,R)表示)和一组管理其转换的规则R 组成。来自不同任务的动作知识组合起来形成动作知识库,也称为动作知识库。该知识库是生成行动和制定决策的重要指南,有助于缓解潜在的规划错觉问题。
提取动作知识的策略:鉴于不同任务涉及的动作知识多种多样,完全手动构建它既费时又费力。为了应对这一挑战,并考虑到LLM在此类任务中的优越性能,本文使用GPT-4进行初始构建,然后进行手动细化。 4.3节详细比较了这两种方法的有效性。
2.2.2 基于行为知识的规划路径生成2.2.2.1 从行为知识到文本图3展示了行为知识到文本的转换过程。首先,本文利用之前的数据集分析和法学硕士的固有知识来构建行动知识库,以确定与特定任务要求相关的行动。该信息被转换为文本格式以供进一步操作。作为示例,本文档提到了HotpotQA 的操作规则- Search:(搜索、获取、查找、完成)。该规则表明从搜索开始有多种可能的路径。操作可以继续搜索、发展为获取或搜索或终止。
2.2.2 路径生成该模型利用行动知识,应用这种洞察力来简化任务规划过程。这是通过根据应用的行动规则制定一致的规划路径来实现的。为了促进路径生成,本文开发了一种专门的提示,其中不仅包括基本任务描述,还包括如图3 所示的片段。
本文的方法完全基于行为知识,分为四个主要部分。
(1)从动作知识概述入手,建立基本概念和规则。
(2)接下来,我们定义每个动作的步骤,并详细说明每个动作的操作方面和含义。
(3)接下来是探索输出生成约束的规划路径生成原则。
(4) 最后,还有规划路径示例,提供了建议如何在不同情况下应用这些策略的实际示例。
这些部分对于阐述行动知识、明确行动、明确利用行动知识生成规划路径的过程发挥着重要作用。这里我们需要区分一下路径和轨迹的概念。路径仅指代理执行的一系列动作,而轨迹包含模型在解决问题过程中的完整输出,路径作为其结构的一部分。
2.2.3 基于知识的自学习改进规划路径现阶段,本文引入基于知识的自学习。本文的目标是通过迭代微调使模型能够更深入地理解动作知识。如算法1 所示,本文的方法从初始训练集和未经训练的模型开始,最终合成初始轨迹。
过滤后,根据这些初始结果进行进一步训练,生成初步模型版本M1。然后在D0 处重新评估M1 以创建新的轨迹T1。与T0 一起,这些轨迹根据动作知识进行过滤和整合。这组精炼的轨迹用于微调模型,从而产生改进的版本M2。本文继续迭代,直到Mtest的性能提升变小,此时停止迭代过程。
过滤和组合基于知识的轨迹:本文基于知识的自学习方法通过两个主要阶段提高了轨迹的质量:
(1)过滤:论文首先根据结果选择正确的轨迹T Correct 。针对HotpotQA 任务,本文进一步利用动作知识来改进这些轨迹。此改进包括删除不适合指定AKm 的轨迹,尤其是那些具有无效移动或无序移动序列的轨迹。
(2)合并:接下来,论文将模型在不同迭代中生成的轨迹进行合并。对于解决同一任务的轨迹,本文根据效率对轨迹进行细化,特别是保留更有效(更短路径)的轨迹,以保证最高的解决问题效率。
2.3 论文有效性在HotpotQA 和ALFWorld 数据集上基于不同骨干模型的实验结果表明,KNOWAGENT 可以实现等于或优于现有基线的性能。进一步的分析证实了KNOWAGENT 在减少计划错觉方面的有效性。
2.3.1 在HotpotQA和ALFWorld上建立一篇评估KNOWAGENT的论文。本文使用Llama-2-{7, 13, 70}b-chat 作为主干模型,并将KNOWAGENT 应用于Vicuna 和Mistral。在本文中,我们将KNOWAGENT 与多个基线进行比较,包括CoT、ReAct、Reflexion 和FiReAct。有关数据集、评估指标、基线和训练超参数的详细信息,请参阅附录A。
2.3.2 KNOWAGENT 和基于提示的方法的关键结果比较:表1 显示了KNOWAGENT 和各种基于提示的方法在HotpotQA 和ALFWorld 上的F1 分数和成功率。在这两个数据集上,KNOWAGENT 始终优于7b、13b 和70b 模型的基于提示的基线方法。
值得注意的是,13b模型在两个数据集上分别将ReAct的性能提高了15.09%和37.81%。此外,还观察到不同提示方法的有效性存在差异,这与当前通过多种策略(例如多智能体专业化)增强模型处理复杂任务的能力的研究是一致的。
具体来说,本文的研究通过最大限度地减少无效动作(在HotpotQA 中)和促进更好地反映现实世界情况的动作序列(在ALFWorld 中)来帮助模型执行复杂的任务,我们特别注重利用外部动作的知识库来实现更多功能。准确完成,从而提高模型的效率。进一步的分析,特别是与HotpotQA 的无效操作相关的分析,将在4.3 节中讨论。
KNOWAGENT和微调方法的比较:本文比较了KNOWAGENT和FiReAct的微调结果。两者之间的主要区别在于,FiReAct 的微调数据是由GPT-4 合成的,而KNOWAGENT 使用自己的合成数据。
例如,在HotpotQA 中,FiReAct 使用了GPT-4 生成的500 个正确轨迹,而KNOWAGENT 也使用了500 个训练轨迹,但只选择了大约100-200 个正确轨迹(对于13b 模型来说不是)。这一策略也体现在ALFWorld 中。
该结果表明,结合先验知识的模型可以获得与GPT-4 等更高级模型生成的数据相当的结果。此外,研究表明,迭代微调使模型能够充分捕获行动知识,从而提高规划性能。
2.3.3 分析在自学中,行为知识的作用随着重复次数的增加而增加。图4 显示了在HotpotQA 中使用Llama 系列模型时的动作知识消融结果。无论迭代次数如何,使用动作知识(带动作KB)的效果都比不使用动作知识(不带动作KB)好,引入动作知识实际上提高了智能体规划质量,可以看到可以提高性能。
另一个有趣的发现是,无操作KB 和操作KB 之间的性能差异随着迭代次数的增加而增加。这表明实施行动知识的好处变得更加明显。本文将此归因于行动知识与自学之间的良性循环。在动作知识约束下,模型合成高质量的轨迹进行迭代训练。
此外,对更高质量轨迹的训练使模型能够更好地学习动作知识并生成更高质量的轨迹。
迭代训练提高了模型的熟练程度。图5 显示了不同基础模型迭代训练效果的比较分析。
论文链接:https://arxiv.org/pdf/2403.03101.pdf
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/583585.html