1. 结论SEEACT 在上一篇论文中开发,是一种通用的Web 代理,它利用GPT-4V 等大规模多模态模型(LMM) 的强大功能来集成网页的视觉理解和操作。本文证明LMM对于通用网络代理具有巨大的潜力,并且使用一定的定位方法,在真实网站上的成功率可以达到50%。 GPT-4V还展现出纠错和长期规划等出色功能。然而,细粒度的视觉定位仍然是一个重大挑战。本文考虑的最有效的定位策略与预言机接地相比仍然存在20-25% 的性能差距。未来的工作应该更好地利用网页的独特属性,例如HTML 和视觉元素之间的已知对应关系,以改进本地化并减少LMM 伪影。
此外,本文发现在线和离线评估之间存在显着差异,强调了在线评估对于准确评估模型功能的重要性。这种差异主要是由于执行相同任务的基础计划可能会发生变化,这表明网页交互的动态性质。
图1.SEEACT 利用GPT-4V 等大规模语言模型来直观地识别网站并生成文本格式的计划。这些文本计划映射到HTML 元素和操作以在您的网站上执行操作。
2. 论文简介2.1 论文背景大规模多模态模型(LMM),特别是最近的GPT-4V(ision)和Gemini,在标准视觉语言理解和推理基准上表现出了令人惊讶的能力。尽管网页内容是训练数据的主要来源,但每个网页本身是一种旨在供人类用户轻松使用的视觉表示,这一点在很大程度上被忽视了。这给LMM 带来了新的挑战和机遇。另一方面,渲染的网页屏幕截图可以包含数千个具有丰富关系的元素,使其比大多数现有基准中以对象或场景为中心的图像更加复杂。另一方面,如果LMM 能够准确理解网页,它就为网络上无数的应用程序打开了大门。
2.2 论文提案本文的目的是研究LMM 作为通用网络代理的潜力。根据MIND2WEB 的定义,典型的Web 代理应遵循自然语言指令来完成给定的真实网页上的任务(例如图1)。这些任务可能非常多样化和复杂,单个任务可能需要跨多个动态呈现的网页进行10 次或更多操作。现有研究主要在原始HTML 输入上使用大规模语言模型(LLM),例如GPT-4。然而,HTML 代码比显示的视觉效果更嘈杂且信息密度更低。例如,图1 中的屏幕截图包含423 个HTML 元素,使用GPT-2 标记生成器需要186,490 个文本标记,但使用GPT-4V 视觉标记生成器只需要1,445 个文本标记。此外,HTML 本身提供的信息不完整,并且缺乏重要的语义,例如嵌入图像。
为了实现这一目标,提出了SEEACT,一种使用LMM 集成视觉理解和网页操作功能的通用Web 代理。 SEEACT 是一个基于GPT-4V 的综合网络代理。具体来说,给定一个基于网络的任务(例如,在汽车租赁网站上“以最低价格租一辆卡车”),检查GPT-4V 作为通用网络代理的两个关键功能:Mas:
(i) 动作生成为完成任务的每个步骤生成动作描述(例如,“将光标移至上方并单击“查找曲目”按钮”)。
(ii) 元素放置标识当前网页步骤中的HTML 元素(例如“查找[按钮] 轨道”)
图2. 使用三种不同方法将元素映射到完成特定任务的单个操作步骤的示例。在此操作步骤中,必须通过单击“搜索轨迹”按钮来搜索模型。在文本选择响应的情况下,给定几个表示为HTML 文本的候选元素,模型需要生成目标元素的选择索引。对于图像注释,将边界框和索引标签添加到图像中。模型应该为目标元素的左下角生成一个标签。对于使用元素属性的对应关系,模型必须预测目标元素的文本和类型
本文重点关注目前公开的最先进的LMM GPT-4V,并将其与BLIP-2 等较小的LMM 进行比较。在本文中,我们发现GPT-4V 在视觉上理解渲染的网页并在各种网站和任务中以文本格式生成正确的计划方面表现出强大的能力。然而,在网站上落地或将文本计划转化为精确的行动仍然是一个重大挑战。这包括选择要操作的正确HTML 元素和正确的操作(单击、键入、选择等)。本文提出了各种定位方法,例如在图像上叠加边界框和索引标签,以及设置标签提示,这些方法已被证明对于以对象或场景为中心的图像是有效的。然而论文发现,GPT-4V 在具有丰富语义和空间关系的复杂图像中观察到严重的幻觉,例如网页截图。最有效的定位策略有机地利用HTML 元素与其视觉呈现之间的已知对应关系。与自然图像相比,这是网站的独特特征。
2.3 论文的影响在本文中,我们在MIND2WEB 数据集上评估了SEEACT,并将其应用于GPT-4 等纯文本大型语言模型(LLM),以及专门针对Web 代理进行微调的较小模型。 (与FLAN-T5 和BLIP-2 比较)。除了使用缓存网站的标准离线评估设置之外,本文还通过开发一种新工具进一步建立了在线评估设置,该工具允许您在实时网站上运行Web 代理。文献综述的主要发现总结如下:
SEEACT 基于GPT-4V,是提供预测定位的强大通用Web 代理。在线评估可以让您成功完成各个网站上50% 的任务。这明显优于GPT-4 (20%) 和FLAN-T5 (18%) 等现有方法。这强烈表明了LMM(例如GPT-4V)对于网络代理的潜力。然而,定位仍然是一个重大挑战。最优定位策略与预测定位之间仍存在20-25%的差距。在各种定位策略中,有机利用HTML 文本和视觉信息的最佳策略比图像标注策略[46] 性能高出30%。使用大型模型(LMM 和LLM)的上下文学习在未见过的网站上表现出更好的泛化能力,但仍然受益于训练中看到的网站上的监督微调。在线和离线评估之间存在显着差异,因为通常有多个可行的计划来完成同一任务。在线评估能够更好地反映模型的实际性能。表1. 数据集统计数据。视觉标记的平均数量是使用OpenAI 视觉标记计算器计算的。
表2. 各种模型的性能。除了SEEACT 使用属性和Oracle 进行映射外,所有其他方法都使用MindAct 框架的排序器来生成候选者。对于SEEACT,“属性”、“选择”、“注释”和“Oracle”分别指的是元素属性、文本选择、图像注释和手动注释的元素对应关系,如2.3节中所述。
表3. 离线和在线评估的总体任务成功率(%)。 Offline0和Offline1分别表示任一步骤不允许出错和一步允许出错。
图3. 按任务难度划分的总体任务成功率。任务根据完成任务所需的动作数量分为简单任务:2-4、中等任务:5-7和困难任务:8-12,每组26个、15个和9个任务。
论文标题:GPT-4V(ision) 是一个通用的网络代理(如果接地的话)
论文链接:https://arxiv.org/pdf/2401.01614.pdf
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/583586.html