人工智能的发展已经从简单的算法发展到复杂和大规模的基础模型,特别是在开放世界环境中理解感官信息方面。然而,关键的转折点是从过于简单的方法向整体的、以操作为中心的系统的转变,这导致了代理人工智能的兴起。 Agent AI 将代理动作的大规模基础模型集成到特定系统中,包括机器人、游戏和医疗保健等领域。在本文中,我们提出了一种新的基于代理的模型,该模型展示了其跨多个任务和领域的非凡能力,并挑战了有关学习和认知的传统观念。同时,将从跨学科的角度讨论Agent AI的潜力,强调AI认知和识别的重要性。这些讨论将为未来的研究奠定基础,并鼓励更广泛的社区参与。
本文深入探讨了人工智能代理的基础知识,强调了智能代理根据物理、虚拟和混合现实环境中的感官输入自主执行上下文相关操作的能力。这种新范式强调了具体智能的重要性以及集成复杂、动态和交互式代理方法的必要性。我们坚信,智力是学习、记忆、行为、感知、计划和认知之间复杂相互作用的结果。 Agent AI 框架(如下所述)的创建将加速AI 社区从被动、结构化任务模型转变为复杂环境中动态、交互式角色模型所需的见解和知识的积累。这是迈向通用人工智能(AGI)的重要一步。
这里有一些Claude 3 和GPT-4 镜像站点供您自己使用。所有这些在中国都可以使用:hujiaoai.cn(最好的Claude 3 Opus,注册后即可使用,完全超越GPT4。评级) higpt4.cn(非商业用途1年稳定使用Chatgpt-4研究和测试站) (使用最强大的128k windows版本)
论文标题
: 立场文件: 人工智能代理以整体智能为目标
论文链接
:
https://arxiv.org/pdf/2403.00833.pdf
Agent AI 的定义和重要性1. Agent AI 的概念和目标
Agent AI(人工智能)是一种智能代理,无论是在物理、虚拟现实还是混合现实环境中,它都可以根据感官输入自主执行适当的、上下文敏感的操作。智能体代表了一种新范式,强调在复杂动态中整合智能体交互方式的重要性。这种方法的动机是,智力是学习、记忆、行为、感知、计划和认知之间复杂相互作用的结果(见下图)。
2. Agent AI在多模态交互中的应用
Agent AI 广泛应用于多模式交互,例如机器人、游戏和医疗保健系统。例如,在机器人技术中,人工智能代理可以解析人类指令并在游戏中执行高级任务。它还可以根据玩家动作和自然语言指令进行交互,在医疗领域,人工智能代理可以协助诊断和患者护理。这些应用程序展示了Agent AI 跨领域和任务的强大功能,并挑战了我们对学习和认知的理解。
构建Agent基础模型1.Agent Transformer的多模态编码器
Agent Transformer 是一种基于变压器的多模态编码器(如下所述),允许交互式代理基于多模态信息执行操作。该模型使用三个预训练的子模块进行初始化:视觉模块、代理动作模块和语言模块。这种设计允许代理预测完成机器人、游戏和交互式医疗任务所需的动作(或动作标记)。
2. Agent学习策略:强化学习和模仿学习
代理学习策略包括强化学习(RL)和模仿学习(IL)。强化学习是一种基于奖励(或惩罚)学习状态和动作之间最佳关系的框架,广泛应用于机器人等领域。 IL 使用演示数据来模仿人类专家的行为。例如,在机器人技术中,通过行为克隆(BC)技术,机器人被训练来模仿专家在特定任务上的行为。
3.代理系统优化问题
智能体系统优化问题可以分为空间和时间两个方面。空间优化考虑智能体如何在物理空间中执行任务,例如机器人之间的协调、资源分配和维护有序空间。时间优化重点关注代理如何随时间执行任务,包括任务调度、序列化和时间线效率。
4. 自改进变压器模型
当前基于底层模型的人工智能代理可以从各种数据源中学习,从而可以使用更灵活的数据源进行训练。自我改进的智能体可以通过与环境的交互不断学习和改进。例如,在机器人教育中,人工智能代理根据人类提供的多模态指令了解需要做什么,并生成和使用虚拟世界中的图像和场景。根据用户反馈进行迭代和改进,逐步适应您的环境。
Agent AI的分类与研究Agent AI可以根据环境和行为两个方面分为四类(见下图)。环境分为物理世界和虚拟世界,动作内容包括低级的详细动作控制,称为“操纵动作”。代理的动作主要是为了向机器人传达人类意图的高级信息和指令。这就是所谓的“有意的行动”。
1. 物理环境中的操纵
物理环境中的操纵动作主要是指在物理环境中进行物理交互的智能体,例如机器人。这类智能体的研究重点是如何使机器人能够理解高级指令并将其分解为一系列物理操纵动作。例如,Brohan 等人提出的RT-1 [1] 和RT-2 [2] 模型显示出很高的通用性。化学性能(下图为RT-2型号示意图)。
2. 控制虚拟环境中的操作
学习虚拟环境中的控制动作,并在模拟环境中执行任务,例如视频游戏中的代理。这些代理的学习目标通常是在模拟环境中设定的,而不是转移到物理世界。研究表明,在大规模文本、图像和视频数据上训练的通用视觉语言模型可以作为多模式代理的基础,使它们能够在各种环境中运行。
3. 物理环境中的故意行为
物理环境中的有意行为是物理环境中的非物理相互作用,例如在医学中的应用。这些代理可以理解用户意图、获取临床知识并在人与人之间的交互中发挥作用。例如,Lee 等人研究的医疗聊天机器人[3] 显示了使用大规模语言模型进行患者诊断的潜力。
4. 虚拟环境中的故意行为
虚拟环境中的有意行为可在游戏、虚拟现实(VR) 和增强现实(XR) 中创建交互式内容。这些智能体可以根据指令进行导航,并在某些游戏中表现得超乎常人。例如,Meta Fundamental AI Research 和其他机构的研究表明,人工智能代理可以在某些游戏中超越人类[4]。
5. 非物化多式联运代理人的分类
无实体多模式代理专注于使用多模式信息来执行有用的无实体行动。此类智能体必须具有先进的语言和视觉识别能力,并使用大型基础模型来规划任务并执行逻辑推理。
Agent AI的应用领域1、在机器人领域的应用
作为典型的智能体,机器人需要与环境进行有效的交互。例如,大型基础模型用作输入信息的编码器,以指导机器人根据口头指令和视觉提示执行动作。此外,LLM的高级语言处理能力将有助于推进任务规划技术[5](下图是GRID模型的示意图,该模型使用指令、场景图和机器人图作为机器人任务规划的输入)。
2、游戏领域的创新
游戏提供了独特的沙盒环境来测试大型基地模型的合作和决策能力。 Agent AI 在游戏中的应用,例如NPC 行为、人与NPC 之间的交互以及游戏分析,都在推动游戏体验的创新。
3. 互动医疗的可能性
Agent AI,例如诊断代理和知识检索代理,可以应用于医疗保健,通过了解用户意图、捕获临床知识以及了解持续的人际关系质量,帮助患者和医生提高医疗服务的可及性和可及性。
4. 交云交互式多模态任务的挑战
将人工智能代理应用于多模态任务,包括图像和语言理解和生成、视频语言理解和生成等,对于开发能够以更类似于人类的方式与世界交互的人工智能代理至关重要。
Agent AI实施的未来方向1.探索新范式
Agent AI 的未来发展需要探索新的范式。这意味着超越现有的模型和算法,寻求更全面、综合的方式来理解和处理信息。这涉及将不同的数据格式(例如视觉、音频、传感器输入)集成到统一的框架中,以解决大型模型中常见的幻觉和偏差,从而提高感知和响应能力,这可能包括:
2. 通用端到端系统
未来的Agent AI系统将朝着构建通用的端到端模型的方向发展,这些模型可以使用大规模数据进行训练,以适应不同的应用场景。此类系统可以灵活适应不同的任务和环境,促进人工智能解决方案的多功能性和适应性。
3. 模式间接地方式
跨模态信息集成可以提高数据处理的一致性和效率。例如,结合视觉和语言信息来理解和解释图像内容,或者利用过去的行为数据来预测未来的行为。这种方法有助于提高Agent AI 系统的理解和响应能力。
4. 直观的人机界面
直观的人机界面的开发对于促进人类与人工智能代理之间有效且有意义的交互至关重要。这包括创建能够理解自然语言指令的系统,以及设计能够根据用户意图和环境反馈进行自适应响应的界面。
5. 控制LLM/VLM的偏见和幻想
为了控制大规模语言模型(LLM)和视觉语言模型(VLM)中的偏见和幻觉,研究人员正在探索新的方法,例如使用搜索增强生成技术和其他外部知识检索机制。这些方法旨在通过提供一种机制来获取额外的源材料并检查生成的响应与源材料之间的差异,从而减少幻觉的发生率。
6. 模拟与现实之间的桥梁
Agent AI是一个很有前景的新兴领域,有潜力在许多领域发挥重要作用。它具有集成性和适应性,能够理解和执行自然语言指令、处理视听输入以及在复杂环境中规划和执行任务。未来,我们可能会开发类似“意识”的属性,以更好地理解和预测我们环境的变化,并与人类用户进行深入的交互。同时,在模拟环境中提高自我提升能力后,能够更好地适应现实世界,实现从模拟到现实的无缝过渡。
2. 有助于全面理解人工智能
人工智能代理的发展极大地促进了对人工智能的全面理解。这促进了跨学科研究,支持对主体认知和意识的探索,为未来的研究奠定了基础,并鼓励广泛的社会参与。随着技术的发展,人工智能代理有望在复杂的环境中发挥更加动态和交互的作用,这是迈向AGI的重要一步。智能体的进步将帮助我们理解学习和认知的过程,为实现全面的智能系统提供新的视角。
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/583591.html