“团结就是力量”面对复杂多变的现实环境,多主体应时代要求而应运而生。与单个代理人单独工作相比,多代理人将多个具有不同能力的法学硕士聚集在一起,合作克服困难。然而,这种协作方法给推理带来了沉重的负担,并限制了开放世界中多智能体开发的潜力。
尤其是在视觉、音频和文本交织在一起的多模态环境中,一个主要挑战是如何动态调整多模态语言模型(MLM)以适应视觉世界的复杂性。
GPT-3.5研究与测试:https://hujiaoai.cn
GPT-4研究测试:https://higpt4.cn
Claude-3研究测试(全面击败GPT-4):https://hiclaude3.com
浙江大学团队提出了一种结合附加专家模块进行多模态多智能体训练的分层知识蒸馏方法。多智能体在自组织分层系统中协作,实现复杂的思维链和高效的部署。这里的代理通过教师模型进行分层训练,以模拟动态和协调任务。
仅使用多模式语言模型(MLM) 进行高效协作。蒸馏后,STEVE-2
通过单一模型开发高效体感智能体,无需专家指导即可完成准确的开放任务。
论文标题
: 我们真的需要一个复杂的代理系统吗?将具体化的代理提取到单个模型中?
论文链接
:https://arxiv.org/pdf/2404.04619.pdf
该方法的总体框架如上图所示。 STEVE-2 接收文本任务描述和图像作为每个步骤的输入状态。
ViT 作为视觉编码器
,将图像编码为嵌入。
多层感知器
(多层感知器,MLP)层将ViT 生成的嵌入调整到语言空间。
LLM作为语言解码器
,它接受指令标记的拼接和线性投影层的输出作为输入,并生成文本动作。该文本操作用于检索代码操作。
STEVE-2生成从图(b)中的教师代理(多功能MLM的组合)中提取的动作序列,并且两者以多代理系统的分层组织结构的形式并行操作。利用多模态语言模型的认知和协作能力,在开放环境中处理视觉()、音频()和对象()目标,以管理和执行复杂的多智能体任务:
第一个任务是表示指挥代理的视觉、音频和其他属性的状态列表。接下来,我们得到指挥智能体的动作,即智能体的总数。
图(c)中的层次结构主要由两部分组成。高层中央计划管理代理用表示,低层分布式执行指挥代理用表示。动作通过以下方式获得:
演员代理是通过以下方式实现的: 是一个可选的附加操作。
在分层多代理系统中,每个教师代理通过不同的提示执行这三种不同的MLM。然后,STEVE-2 通过具有DPO 损失的分层知识提取来学习这三个代理的性能。
多模式教师模型多模式教师模型MLM 包括三个主要主体:管理者、指挥者和参与者。每个代理都配备了规划器、描述符、评论家和技能模块。
下图显示了该方法与GT(Ground Truth)相比的典型输出结果。
与Creative Agent方法相比,本文的方法对建筑结构的保存表现出更深入的理解,并且生成的结果与解释文本更加一致。
摘要文本以多种方式创建,并使用FID 索引和手动统计设置来确定生成的结果是否符合描述。 STEVE-2 在FID 分数上实现了3.2 倍的提升,在GPT-4V 分数和人类主观偏好分数上均排名最高,在保证高精度的同时展现了卓越的性能。
消融实验作者对多模式目标搜索、顺序块搜索和地图搜索进行了研究。没有KD意味着没有知识蒸馏,没有EE意味着没有额外的专家,而TO是唯一在热身阶段使用的教师模型来提供额外的知识。结果如下表所示。
下表展示了通过收集材料和创建建筑物进行的消融实验。
作者还比较了不同语言模型的效率,如下表所示。 # 时间是指每次迭代的执行时间,用于计算代理所有语言模型的推理时间。 VRAM 是GPU 内存使用量的近似值。基于GPT-4的方法通过API调用,没有计算部分。
上述实验结果表明,STEVE-2模型在系统性能方面明显优于教师模型GPT-4V,导航效率提高1.8倍,创作质量提高4倍。
知识蒸馏进一步改进了模型,使其从头开始导航和生产高质量建筑的效率提高了24 倍。
结论STEVE-2采用层次结构实现细粒度的任务划分,结合镜像蒸馏技术充分利用并行仿真数据,并引入虚拟模型为任务注入额外的上下文知识,有效地弥合了任务理解和任务之间的差距。执行。我们进行模拟来展示对开放环境的动态适应性的发展。在复杂、现实的应用场景中,STEVE-2表现出更高的复杂性、灵活性和效率,为人工智能和实体智能的发展注入新的活力。
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/583560.html