明略科技Mano大模型双榜SOTA,开启GUI智能操作新时代

(图片来自网络)
明略科技的专有 GUI 大模型 Mano 在行业内知名的 Mind2Web 和 OSWorld 两大基准测试中,均取得了创纪录的 SOTA(当前最先进) 成绩,为 GUI 智能体领域带来可扩展、可持续进化的新范式,开启 GUI 智能操作新时代!
在网页端 Mind2Web 测试中,Mano 展现出「看得准、做得成」的核心优势。Mind2Web 覆盖 137 个网站、2350+ 真实任务,从填写表格到订机票、在线购物等任务一应俱全,旨在考察智能体能否在复杂多变的 DOM 结构里精准找到目标元素,并完成整个操作链。技术报告显示,Mano 在元素精度(Ele.Acc)和步骤成功率(Step SR)等指标上遥遥领先,表明其在准确识别和执行多步任务的能力上达到了新高度。
更严峻的挑战来自桌面端。OSWorld-Verified 涵盖 369 个跨应用任务,覆盖 10 类应用(如浏览器、办公软件等),每一个操作都和真实桌面场景无缝对接,被认为是桌面智能体测评界的「珠峰」。在 OSWorld-Verified 榜单的 Foundation E2E GUI & Specialized Model 评测中,Mano 直接将成功率拉至 41.6%,超过 qwen、GUI-Owl 等模型,成为通用 GUI 智能体新范式。
Mano 取得双榜 SOTA 的核心创新为两大技术:领域首创的在线强化学习 和 训练数据自动采集的「探索器」。
其一:在线强化学习 领域创新。Mano 首次提出在线强化学习训练范式,通过在真实交互环境中持续探索、优化,弥补离线训练数据单一问题。团队构建模拟环境池,让模型与真实环境交互,采用在线采样 + 离线过滤方式,动态调节任务难度,提升模型在真实操作系统的灵活性和适应性。消融实验显示,加入在线强化学习后,模型在 OSWorld-Verified 数据集上平均分数提升显著,相比离线强化学习模型结果提升 7.9,达到 41.6%。
其二:训练数据自动采集的「探索器」。Mano 设计可扩展虚拟环境集群,结合大语言模型自动生成目标清单、过滤低频功能,定制 Chrome 插件获取网页交互元素,采用 A11y Tree 等方法覆盖桌面环境交互元素,通过智能探索和轨迹评估机制,自动采集高质量交互轨迹数据,为模型训练提供数据支撑,提升数据采集效率和准确性。
这项技术突破背后是明略科技多年技术积淀。从知识图谱构建、多模态大模型研发到商业数据分析智能体 DeepMiner 等项目,为 Mano 提供了坚实的技术支撑。未来,明略科技将进一步优化 Mano 在数据采集、训练推理整合、验证码处理等领域,推动其在真实应用和端侧部署优化,助力企业智能化转型。
最新新闻
- 2025年9月22日:台积电2nm工艺客户达15个 十个为HPC产品客户
- 2025年9月22日:vivo TWS 5耳机10月13日发布:60dB降噪与三设备连接
- 2025年9月22日:一加15首批搭载ColorOS 16 系统新功能提前揭晓
- 2025年9月22日:雷军第六次年度演讲官宣将于9月25日举行
- 2025年9月22日:转转宣布逐步关停“个人对个人”自由市场,聚焦二手“官方验”业务
- 2025年9月22日:燃油车销量连涨三月:复苏还是回光?
- 2025年9月22日:首批iPhone新机用户吐槽不断,多问题需警惕
- 2025年9月22日:科幻界大咖云集成都郫都 共话科幻电影传承与AI技术变革
- 2025年9月22日:仰望U9刷新全球汽车极速纪录 限量30台赛道版登场
- 2025年9月22日:Ubiquiti 推出桌面式 NAS 设备 UniFi UNAS,双盘位与四盘位机型登场
- 2025年9月22日:53岁孟非逐渐‘消失’,被赞‘人间清醒’?
- 2025年9月22日:从‘普通影后’到‘翻红’!郭柯宇因真人秀《再见爱人》引发关注
- 2025年9月22日:董璇婚前协议细节曝光,婚姻选择引发各界热议
- 2025年9月22日:艺术家烟花秀争议持续,公众人物卷入引发关注
- 2025年9月22日:保时捷Cayenne Coupe EV谍照曝光:性能强劲科技感拉满
- 2025年9月22日:现代N性能车野心:2030年前扩至7款以上,燃油电动全覆盖
- 2025年9月22日:特斯拉隐藏式门把手存安全隐患 国产车企对隐藏式设计需重新审视
- 2025年9月22日:零跑D19全尺寸SUV伪装图曝光 预计10月首发
- 2025年9月22日:林肯将推出搭载增程动力的全新三排SUV 豪华品牌布局新车型
- 2025年9月22日:郑钦文伤愈回归!WTA确认将参加2025中网 7月温网后首参赛
精彩评论(10)