机器心脏报告
机器之心编辑部
当我们谈论AI助手的未来时,我们不禁会想到《钢铁侠》系列中耀眼的AI助手Jarvis。贾维斯不仅是托尼·斯塔克的得力助手,也是先进科技的使者。如今,随着大型模型的出现正在颠覆人类使用工具的方式,我们可能离这样的科幻场景又近了一步。如果多模式代理能够像人类一样通过键盘和鼠标直接控制周围的计算机,那将是多么巨大的突破。
AI助理贾维斯
近日,吉林大学人工智能学院发表了最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,利用视觉大语言模型直接控制计算机GUI,将这种想象映射到现实。在本研究中,我们提出了ScreenAgent模型。这是我们第一次探索使用VLM代理直接控制计算机的鼠标和键盘,而不需要辅助定位标签,达到直接操纵大型模型中计算机的目标。此外,ScreenAgent 是第一个通过自动化的“计划-执行-反映”过程提供对GUI 界面的连续控制的软件。这项研究是对人类和计算机如何交互的探索和创新,同时为开源数据集提供了精确的位置信息、控制器、训练代码等。
论文地址:https://arxiv.org/abs/2402.07945
项目地址:https://github.com/niuzaisheng/ScreenAgent
ScreenAgent帮助用户轻松进行在线娱乐活动、购物、旅游、阅读等。您还可以充当最了解您的贴心管家,帮助管理您的个人电脑。它帮助用户无需做任何事情即可实现快速办公,使其成为最强大的办公助手。让我们看看结果。
畅游网络,实现娱乐自由
ScreenAgent根据用户的文字描述在线搜索并播放指定视频。
为用户提供高级技能的系统操作管理员
告诉ScreenAgent 打开Windows 事件查看器。
掌握办公技巧,轻松玩转办公
ScreenAgent还可以与办公软件配合使用。例如,按照用户文本中的描述删除第二个打开的PPT页面。
在采取行动之前先做出决定,并知道如何停下来并得到一些东西。
要完成特定任务,您需要在执行任务之前计划您的活动。 ScreenAgent可以在开始任务之前根据观察到的图像和用户的需求进行规划。例如:
将视频播放速度设置为1.5 倍。
在58.com上查找迈腾二手车价格:
从命令行安装xeyes:
视觉定位功能过渡,无鼠标选择压力
ScreenAgent还保持了视觉定位自然对象的能力,允许您通过拖动鼠标来绘制对象的选择框。
方法
事实上,教导代理直接与用户的图形界面交互并非易事。智能体需要任务规划、图像理解、视觉定位、工具使用等多种综合能力。现有模型和交互解决方案存在一定的权衡。例如LLaVA-1.5等模型缺乏对大尺寸图像的精确视觉定位能力,同时也缺乏非常强大的任务规划、图像理解和OCR能力。获取精确坐标。现有的解决方案需要使用额外的数字标签手动注释图像,以允许模型选择需要单击的UI 元素,例如在Mobile-Agent、UFO 和其他项目中,以及在CogAgent 和Fuyu 等模型中。也可以支持-8B。虽然具有高分辨率图像输入能力和精确视觉定位能力,但CogAgent缺乏全功能调用能力,Fuyu-8B缺乏语言能力。
为了解决上述问题,本文提出为视觉语言模型代理(VLM代理)构建一个与真实计算机屏幕交互的新环境。在此环境中,代理可以通过观察屏幕截图并输出鼠标和键盘操作来与图形用户界面进行交互。为了使VLM代理能够持续与计算机屏幕交互,本文构建了一个包括“计划-执行-反映”的操作流程。在规划阶段,代理被要求将用户任务划分为子任务。在执行阶段,代理观察屏幕截图并给出特定的鼠标和键盘操作来执行子任务。控制器执行这些操作并将结果反馈给代理。在反思阶段,Agent观察执行结果,确定当前状态,并选择是否继续执行、重试或调整计划。此过程将持续直至任务完成。请注意,ScreenAgent 不需要使用文本识别或图标识别模块,而是使用端到端的方法来训练模型的所有特征。
ScreenAgent环境是指VNC远程桌面连接协议,用于设计代理的操作空间,包括最基本的鼠标和键盘点击。代理必须指定准确的屏幕坐标。相比于调用特定的API来完成任务,这种方法更加通用,适用于多种桌面操作系统和应用程序,例如Windows和Linux桌面。
ScreenAgent数据集
为了训练ScreenAgent 模型,本文使用精确的视觉位置信息手动注释了ScreenAgent 数据集。该数据集涵盖了广泛的日常计算机任务,包括文件操作、网页浏览、游戏娱乐以及Windows 和Linux 桌面环境中的其他场景。
数据集中的每个样本都是完成一项任务的完整过程,包括动作描述、屏幕截图以及执行的具体操作。例如,如果您想在亚马逊网站上“将最便宜的巧克力添加到您的购物车”,您首先在搜索框中搜索关键字,然后使用过滤器对价格进行排序,最后将最便宜的产品添加到您的购物车需要。大车。整个数据集包含273条完整的任务记录。
实验结果
在实验分析部分,作者从多个角度对ScreenAgent和现有的几种VLM模型进行了比较,主要包括两个层面的指令跟随能力和详细的运动预测精度。指令跟随功能主要测试模型是否能够正确输出JSON 格式的动作序列和动作类型。动作属性预测准确度比较每个动作的属性值,如鼠标点击位置或键盘按键是否被正确预测。
按照说明操作
对于以下命令,代理的首要任务是根据提示的文字输出正确的工具函数调用,即输出正确的JSON 格式。 ScreenAgent 和GPT-4V 都可以遵循这方面的命令。最初的CogAgent 有视觉微调训练,但缺乏对API 调用形式的数据支持,反而失去了输出JSON 的能力。
行为属性预测准确率
ScreenAgent 在动作属性的准确性方面也与GPT-4V 相当。特别是,ScreenAgent 在鼠标点击准确性方面明显优于现有模型。这表明视觉微调有效增强了模型的准确定位能力。此外,我们还观察到ScreenAgent和GPT-4V在任务规划方面存在明显差距,这凸显了GPT-4V的常识知识和任务规划能力。
结论是
ScreenAgent由吉林大学人工智能系团队提出,可以像人类一样控制计算机,不依赖其他API或OCR模型,可以广泛与各种软件和操作系统配合使用。 ScreenAgent可以在“计划-执行-反思”流程的控制下自主执行用户给出的任务。这样,用户可以看到任务完成的每一步,更深入地了解智能体的行为思维。
在本文中,我们开源了控制软件、模型训练代码和数据集。在此基础上,可以考虑针对通用人工智能的前沿研究,例如环境反馈下的强化学习、智能体对开放世界的主动探索、世界模型构建、智能体技能库等。
而且,AI代理驱动的个人助理具有巨大的社会价值,例如帮助肢体受限的人使用计算机、减少重复的数字劳动、普及计算机教育等。未来,我们或许不可能都成为钢铁侠那样的超级英雄,但我们都有特殊的人陪伴我们,支持我们,指导我们的生活和工作,贾维斯可能会在那里,带来更多的便利和可能。
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/583602.html