分类 | |
网页 Agent(WebAgent) | VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks ◦ 简介:VisualWebArena 是一个用于评估多模态网络智能体的基准,通过一系列复杂的基于视觉的任务,测试智能体处理图文输入、理解自然语言指令和在网站上执行动作的能力,以实现用户定义的目标。 WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models ◦ 简介:WebVoyager 是一个创新的多模态大型模型驱动的网络智能体,能够通过与真实网站交互完成用户指令,并在我们建立的基准测试中取得了显著优于GPT-4和文本只版本的性能表现。 On the Multi-turn Instruction Following for Conversational Web Agents ◦ 简介:本文提出了一种新任务“对话式网页导航”,并构建了一个名为Multi-Turn Mind2Web的数据集,同时提出了一个名为“自我反思记忆增强规划(Self-MAP)”的框架,以有效地处理大型语言模型在对话任务中的上下文长度限制和依赖问题。实验结果验证了该方法的有效性。 You Only Look at Screens: Multimodal Chain-of-Action Agents ◦ 简介:本文介绍Auto-GUI,一种无需环境解析或应用依赖API的多模态解决方案,通过链式动作技术实现图形用户界面智能体的自主操作,在AITW基准测试中取得领先性能。 OpenWebAgent: An Open Toolkit to Enable Web Agents on Large Language Models ◦ 简介:OpenWebAgent 是一个开放的工具包,它支持基于模型的网络代理,通过在网页上自动执行任务来简化人机交互。我们提供插件和服务器源代码,用户可以轻松地将自己的模型添加到后台,从而获得可用的网页浏览代理。 |
多模态 Agent(Multimodal Agent) | VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks ◦ 简介:VisualWebArena 是一个用于评估多模态网络智能体的基准,通过一系列复杂的基于视觉的任务,测试智能体处理图文输入、理解自然语言指令和在网站上执行动作的能力,以实现用户定义的目标。 WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models • 简介:WebVoyager 是一个创新的多模态大型模型驱动的网络智能体,能够通过与真实网站交互完成用户指令,并在我们建立的基准测试中取得了显著优于GPT-4和文本只版本的性能表现。 SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents ◦ 简介:我们提出了一种新的视觉 GUI 智能体 SeeClick,它仅通过截图实现任务自动化,并通过预训练和数据自动化处理解决了 GUI 定位的挑战,显著提升了性能,并在 ScreenSpot 等基准测试中表现出色。模型、数据和代码可在提供的网址获取 CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation ◦ 简介:我们提出一个综合认知大语言模型智能体CoCo-Agent,通过全面的环境感知和条件动作预测两种方法,系统性地提升图形用户界面自动化性能。 |
Agent 评测 | Speaker Verification in Agent-generated Conversations ◦ 简介:本研究提出一个新的评价挑战:在智能体生成的对话中实现说话者验证,旨在验证两组话语是否源于同一说话者。我们收集了包含数千名说话者及其话语的大型数据集,并开发和评估了说话者验证模型。我们还利用这些模型评估了基于大型语言模型的角色扮演模型的个性化能力。实验表明,当前的角色扮演模型在准确模仿说话者方面存在不足,主要是因为其固有的语言特性。 CToolEval: A Chinese Benchmark for LLM-Powered Agent Evaluation in Real-World API Interactions ◦ 链接:暂无链接 ◦ 简介:暂无简介 |