来也科技OpenAPA框架刷新OSWorld纪录并开源

元小蛮 8小时前 260 IP:重庆

近日,来也科技OpenAPA框架在Computer Use Agent计算机操控智能体的权威基准OSWorld上取得78.3%的成绩,Agentic Framework这一技术路线上位列全球第一_来也科技OpenAPA框架刷新OSWorld纪录并开源

OSWorld是什么?Computer Use Agent界的“高考”

如果说大语言模型的能力可以用MMLU、GSM8K这些考试衡量,那么AI是否能像人一样操作电脑,标尺就是OSWorld。这个由HKUNLP、CMU、Waterloo等顶尖机构联合发布的基准,已成为全球评估计算机操作智能体 的黄金标准——OpenAI、Anthropic、Google发布最新模型时,均以OSWorld作为官方标尺。

OSWorld的“权威性”来自三点:

        真实环境:在真实的Ubuntu和Windows系统中,用真实的Chrome、VS Code、LibreOffice、Thunderbird等应用完成任务,不是仿真、不是沙盒简化版

        真实任务:361个由人类专家精心设计的任务,覆盖办公、编程、浏览、设计、系统管理等日常工作场景

        客观评分:每个任务都配有可执行的验证脚本,Agent是否真正完成,由机器自动判定,不靠人工评价

让我们看一个来自OSWorld的真实任务:

“ 收件箱里有一封邮件,里面包含了12月的AWS账单。请把这份账单的PDF提取出来,放到我的 receipts 文件夹里,文件命名遵循该文件夹中已有文件的命名规则,然后在我的账本(tally book)中补登一条对应的记录。”

是否能像人一样操作电脑,标尺就是OSWorld。这个由HKUNLP、CMU、Waterloo等顶尖机构联合发布的基准,已成为全球评估计算机操作智能体 的黄金标准——OpenAI、Anthropic、Google发布最新模型时,均以OSWorld作为官方标尺。

一个熟练的办公人员完成它也需要不少时间。而对Agent来说,这个任务的难度至少体现在两点:

        超过60步的连续操作:从打开邮件客户端、定位邮件、下载附件、查看已有文件命名、按规则重命名,到打开账本、找到正确的sheet和行列、按既有格式填写——任何一步出错都会连锁失败

        全过程需要推理与判断:Agent必须看懂账单的内容,总结已有PDF文件的命名规律,理解账本Excel中行、列及格式,而不是按照预设脚本机械执行

这只是361个任务中的一个。每一个百分点的提升,背后都是工程与算法的硬仗。

两条技术路线,OpenAPA在其中一条上站到了最前面

要准确理解OpenAPA的成绩,需要先区分OSWorld上的两条主流技术路线:

        专用模型(Specialized Model)路线:通过在GUI操作数据上做大规模后训练,得到“会操作计算机”的专用大模型,再搭配相对轻量的执行层

        通用模型+Agentic Framework路线:使用通用大模型(如Gemini、Claude、GPT),依靠框架设计、规划能力、多Agent协作、上下文工程等架构和工程创新驱动任务完成

两条路线各有所长:专用模型对特定能力更“熟练”,通用框架则具备更强的可迁移性、可组合性和可控性——同一套框架可以随着底层大模型的进步自动受益,也更适合企业根据自身业务与合规要求灵活调整框架。

OpenAPA走的正是第二条路线,并在这条路线上以78.3%的成绩取得了全球第一。这意味着,在不依赖专门训练模型的前提下,仅通过架构与工程创新,Agent框架+通用模型也能达到世界级的水平。

OpenAPA 的几个关键创新

仅靠“通用模型+Agent 框架”,OpenAPA为什么能在OSWorld上跑出全球领先的成绩?答案藏在它的架构设计里:

        分层规划+动态反思:初始规划只定义“做什么”,不预先锁死“怎么做”;反思模块每一步基于最新截图重新校准,有效抑制长程任务中的“越走越偏”。

        Coding Agent和GUI Agent协作:Coding Agent负责数值计算、数据清洗、文件解析等“程序化”工作,GUI Agent专注视觉理解和执行,两者之间相互验证、共享知识,兼顾效率与鲁棒性。

        面向长程任务的上下文工程:通过滑动窗口+Token预算机制,动态保留最近的关键截图与推理轨迹,让100步级别的长任务稳定运行,Token成本降低60%以上。

        推理与定位双模型解耦:主推理模型负责任务理解与决策,专用视觉模型负责像素级坐标定位。“思考”和“看”各司其职,避免单一模型兼顾两头但都做不到极致。

这些设计指向同一个目标:让“通用模型 + 通用框架”,在真实世界的复杂任务中跑出专用系统才具备的可靠性。后续我们将有文章展开介绍OpenAPA的架构设计理念。

RPA到APA,再到OpenAPA

企业级流程自动化,正在经历一条清晰的演进路径。

来也科技最近将RPA升级为APA(Agentic Process Automation,智能体流程自动化),通过将智能体能力融入流程自动化的开发、执行、维护全生命周期,让企业级自动化变得更智能、更灵活、也更容易落地——过去需要IT团队反复配置与维护的流程,如今可以由智能体基于目标自主完成,大幅降低了部署与变更的门槛。

而OpenAPA在OSWorld上探索的,是APA未来演进的下一条关键路径——以Computer Use Agent为核心的“视觉驱动、语义理解、自主规划、自我修复”范式,它不依赖固定的接口或脚本,而是像人一样“看屏幕、做判断、执行操作”,这将为APA带来了更强的界面理解、任务规划和流程自愈能力。

来也科技已经通过APA证明了“智能体×流程自动化”的工程化价值,而OpenAPA则在更前沿的方向上,为未来的APA产品持续注入更灵活、更智能的能力输入。两者共同构成了来也科技对“下一代企业级自动化”的判断与投入。

开源即刻可用

当AI学会看屏幕,企业流程自动化将不再止步于“按规则执行”,而是走向“按目标自主完成”——来也科技愿意在这条演进之路上,作为持续的推动者和同行者。

Computer Use Agent的发展还在早期,因此我们将OpenAPA开源,期待更多社区开发者和我们一起共同探索,共同成长,共同推进Computer Use Agent技术的发展:

        GitHub:https://github.com/laiye-ai/open-apa
_来也科技OpenAPA框架刷新OSWorld纪录并开源

最新回复 (0)
返回
发新帖