Vercept Vy 核心技术调研:Vision-First Computer-Use Agent 复刻指南
Overview
2026 年 2 月 25 日,Anthropic 宣布收购西雅图 AI 创业公司 Vercept。Vercept 由 Allen Institute for AI (AI2) 校友创立,总融资约 5000 万美元,核心产品 Vy 是一个桌面端 Computer-Use Agent,能像人一样”看”屏幕并操作电脑完成复杂任务。
收购背景
核心团队
| 人物 | 背景 | 去向 |
|---|---|---|
| Kiana Ehsani (CEO) | AI2 高级研究员,具身 AI | 加入 Anthropic |
| Luca Weihs | AI2 研究经理,Agent + RL | 加入 Anthropic |
| Ross Girshick | 计算机视觉先驱,曾在 Meta AI | 加入 Anthropic |
| Matt Deitke | AI2 研究员 | 被 Meta 超级智能实验室挖走 |
天使投资人包括前 Google CEO Eric Schmidt、DeepMind 首席科学家 Jeff Dean、Cruise 创始人 Kyle Vogt 等。
收购动机
Vercept’s team have spent years thinking carefully about how AI systems can see and act within the same software humans use every day. Their expertise maps onto some of the hardest problems we’re working on at Anthropic. —— Anthropic 官方公告
Anthropic 的 Claude Sonnet 4.6 在 OSWorld(真实计算机任务 benchmark)上已达 72.5%,从 2024 年底的不到 15% 大幅提升。收购 Vercept 预计将进一步推动这一能力。
VyUI 核心技术原理
Vision-First 架构
Vercept 的核心论点:AI Agent 在计算机任务上失败,不是因为不够聪明,而是因为看不见。
flowchart LR
A[传统方法] --> B[解析 DOM/HTML]
A --> C[Accessibility Tree]
A --> D[依赖 API]
E[Vy Vision-First] --> F[屏幕截图]
E --> G[像素级视觉识别]
E --> H[无需任何 API]
style E fill:#4a9eff,color:#fff
style F fill:#4a9eff,color:#fff
style G fill:#4a9eff,color:#fff
style H fill:#4a9eff,color:#fff
两种方法的对比:
| 维度 | 传统 DOM/API 方法 | Vy Vision-First 方法 |
|---|---|---|
| 输入 | HTML DOM 树、Accessibility Tree | 屏幕截图(像素级) |
| 识别方式 | 解析源代码结构 | 视觉识别按钮、输入框等 UI 元素 |
| 依赖 | 需要 API 或浏览器插件 | 无需任何 API 或插件 |
| 通用性 | 仅限支持 API 的应用 | 任何有屏幕的应用都可操作 |
| 优势 | 结构化信息精确 | 与人类使用方式一致 |
| 劣势 | 无法操作原生 App / 游戏等 | 精度依赖视觉模型能力 |
VyUI 模型核心能力
VyUI 是一个专为 UI Grounding(UI 定位) 设计的视觉语言模型,解决三个关键问题:
- 视觉上下文理解 —— 从截图中理解 UI 布局、元素类型、层级关系
- 自然语言映射 —— 将用户的自然语言指令映射到具体的屏幕元素坐标
- 实时精准操作 —— 输出精确的像素坐标,驱动鼠标点击和键盘输入
Benchmark 表现
VyUI 在主流 UI 识别基准上的表现:
| Benchmark | VyUI | OpenAI 模型 | 差距 |
|---|---|---|---|
| ScreenSpot v1 | 92% | 18.3% | +73.7% |
| ScreenSpot v2 | 94.7% | 87.9% | +6.8% |
| GroundUI Web | 84.8% | 82.3% | +2.5% |
ScreenSpot 是评估 GUI Grounding 的主流 benchmark,涵盖 iOS、Android、macOS、Windows 和 Web 环境,包含 1200+ 条标注指令。
工作流程
flowchart TD
A["用户下达自然语言指令"] --> B["频繁截屏(观察屏幕状态)"]
B --> C["VyUI 模型分析截图"]
C --> D["识别 UI 元素"]
C --> E["理解当前页面状态"]
D --> F["推理引擎拆解为子步骤"]
E --> F
F --> G["生成精确坐标 + 操作类型"]
G --> H["模拟鼠标/键盘执行"]
H --> I{"任务完成?"}
I -->|"否"| B
I -->|"是"| J["返回结果"]
VyUI 模型的推理过程可以概括为:
输入:屏幕截图 + 自然语言指令(如"点击发送按钮") | v视觉编码器提取图像特征 | v语言模型理解指令语义 | v跨模态融合:将语言指令与视觉特征对齐 | v输出:目标元素的精确坐标 (x, y)UI Grounding 技术详解
UI Grounding 是 Computer-Use Agent 的核心基础能力 —— 给定一张屏幕截图和一条自然语言指令,精确定位指令所指的 UI 元素。
关键技术挑战
- 高分辨率处理 —— 专业软件界面元素密集且微小,需要在高分辨率截图上精准识别
- 跨平台泛化 —— 同一模型要能处理 Web、iOS、Android、macOS、Windows 各种 UI 风格
- 语义理解 —— 不仅识别”蓝色按钮”,还要理解”提交表单”映射到哪个按钮
- 动态界面 —— UI 状态不断变化(弹窗、加载、动画),模型需要实时适应
典型模型架构
大部分 UI Grounding 模型遵循类似的架构模式:
flowchart LR
A["屏幕截图"] --> B["视觉编码器\n(ViT / SigLIP)"]
C["自然语言指令"] --> D["文本编码器\n(LLM Tokenizer)"]
B --> E["跨模态融合层"]
D --> E
E --> F["坐标预测头"]
F --> G["输出 (x, y) 坐标"]
ScreenSpot Benchmark
ScreenSpot 是目前最主流的 GUI Grounding 评估基准:
- ScreenSpot v1: 基础版,1200+ 条跨平台标注
- ScreenSpot v2: 增强版,更多样化的场景
- ScreenSpot-Pro: 专业版,1581 条专家标注,涵盖 23 个专业应用,针对高分辨率专业界面
各 benchmark 上的 SOTA 表现(截至 2026 年 2 月):
| 模型 | ScreenSpot v1 | ScreenSpot v2 | ScreenSpot-Pro |
|---|---|---|---|
| VyUI (Vercept 私有) | 92% | 94.7% | 未公开 |
| UI-TARS-1.5 (ByteDance) | - | 94.2% | 61.6% |
| GUI-Cursor (Qwen2.5-VL) | - | 93.9% | 56.5% |
| GUI-G1 (3B, GRPO) | 90.3% | - | 37.1% |
| MEGA-GUI (多阶段) | - | - | 73.18% |
| RegionFocus (推理增强) | - | - | +28% 提升 |
| OS-Atlas-7B | - | - | 18.9% |
关键发现:开源模型已经在 ScreenSpot v1/v2 上接近甚至匹敌 VyUI 的精度,但在更难的 ScreenSpot-Pro(高分辨率专业界面)上仍有差距。
开源 SOTA 方案全景
已接近 VyUI 精度的模型
以下模型在 ScreenSpot 系列 benchmark 上已接近甚至超越 VyUI 的 92-95% 精度:
UI-TARS-1.5(ByteDance Seed)
- 论文: UI-TARS: Pioneering Automated GUI Interaction with Native Agents
- 代码: github.com/bytedance/UI-TARS
- 模型: ByteDance-Seed/UI-TARS-1.5-7B
- 规模: 2B / 7B / 72B
- ScreenSpot-v2: 94.2% | ScreenSpot-Pro: 61.6%
目前综合表现最强的开源 GUI Agent 模型。核心训练方法:
- 大规模感知预训练 —— 海量 GUI 截图解析元素描述、类型、边界框、功能文本
- 统一动作建模 —— 跨平台标准化动作空间
- System-2 推理 —— 将深思熟虑的推理融入多步决策
- 迭代在线训练 —— 用反思性在线轨迹持续迭代
GUI-G1(GRPO 强化学习)
- 论文: GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding (NeurIPS 2025)
- 代码: github.com/Yuqi-Zhou/GUI-G1
- 基座: Qwen2.5-VL-3B-Instruct
- ScreenSpot: 90.3% | ScreenSpot-Pro: 37.1%
- 训练数据: 仅 17K 公开样本
这是复刻 VyUI 精度最值得关注的方案 —— 仅用 3B 模型 + 17K 数据就达到 90.3%。核心发现:
- Fast Thinking Template —— 发现长链推理反而降低 grounding 精度,采用快速思考模板鼓励直接定位
- Box-Size Constraint —— 在奖励函数中加入框大小约束,防止 reward hacking
- Difficulty-Aware Scaling —— 调整 RL 目标的长度归一化,增加难度感知缩放因子
GUI-Cursor(迭代搜索式定位)
- 论文: Learning GUI Grounding with Spatial Reasoning from Visual Feedback
- 基座: Qwen2.5-VL-7B
- ScreenSpot-v2: 93.9% | ScreenSpot-Pro: 56.5%
颠覆性思路 —— 将 GUI Grounding 重新定义为交互式搜索任务:
- 不直接预测坐标,而是在屏幕上渲染一个可见光标
- 模型每步判断光标与目标的空间关系,逐步移动光标逼近目标
- 渲染的光标提供视觉反馈,帮助模型校准预测
- 95% 的实例在 2 步内解决,困难实例自适应增加步数
训练方式:多步在线强化学习 + 密集轨迹奖励函数。
SE-GUI(自进化强化学习)
- 论文: Enhancing Visual Grounding for GUI Agents via Self-Evolutionary RL (NeurIPS 2025)
- 代码: github.com/YXB-NKU/SE-GUI
- 基座: Qwen2.5-VL-7B
- 训练数据: 仅 3K 样本
- 成绩: 同等规模模型 SOTA
核心方法:
- 种子数据筛选 —— 确保高质量训练样本
- 密集策略梯度 —— 基于预测与真实值的接近程度提供连续反馈(非二值奖励)
- 自进化机制 —— 利用注意力图作为中间监督信号,迭代对齐模型关注区域
MEGA-GUI(多阶段管线)
- 论文: MEGA-GUI: Multi-stage Enhanced Grounding Agents
- ScreenSpot-Pro: 73.18% | OSWorld-G: 68.63%
非端到端方案,而是多阶段管线:
- 粗粒度 ROI 选择 —— 先定位大致区域
- 双向 ROI 缩放 —— 放大感兴趣区域,消除空间稀释
- 上下文感知指令重写 —— 消除语义歧义
- 精细元素定位 —— 在缩放后的区域内精确定位
核心发现:不同 VLM 在不同视觉尺度上有互补的优劣势,模块化设计远优于单模型。
RegionFocus(推理时视觉缩放)
- 论文: Visual Test-time Scaling for GUI Agent Grounding (ICCV 2025)
- 代码: github.com/tiangeluo/RegionFocus
- 效果: 在 ScreenSpot-Pro 上 +28% 提升,WebVoyager 上 +24% 提升
关键价值:无需重新训练,作为即插即用插件为任何现有模型增强精度:
- 根据 GUI 知识动态缩放相关区域,减少背景干扰
- 用 image-as-map 机制可视化关键路标
- 推理时根据执行错误或模型自评估动态调整
早期基础方案
| 项目 | 类型 | 规模 | 关键成绩 | 适合场景 |
|---|---|---|---|---|
| ShowUI (CVPR 2025) | Grounding 模型 | 2B | 75.1% grounding | 轻量级入门验证 |
| SeeClick (ACL 2024) | Grounding 模型 | ~7B | 首创 ScreenSpot | 数据管线参考 |
| UGround (ICLR 2025) | Grounding 模型 | 2B-72B | 1000 万元素训练 | 大规模 SFT 参考 |
| OpenCUA | 完整框架 | 3B-72B | 45% OSWorld | 端到端框架参考 |
| Agent-S | Agent 框架 | 多模型 | 超越 CUA/Claude | 工程实践参考 |
Vercept 的隐藏线索
Vercept 使用 Together AI 的 Dedicated Endpoints 进行模型部署,案例研究透露了几个关键信息:
- 实现了亚 24 小时的模型迭代周期,意味着快速 benchmark 迭代是其达到高精度的关键
- 使用自动扩缩容基础设施,监控响应延迟和队列深度
- 多区域部署,Ross Girshick 的背景(Faster R-CNN、Mask R-CNN、Segment Anything 的开创者)暗示 VyUI 可能融合了目标检测的思路
复刻 VyUI 92%+ 精度:完整技术路线
核心结论
经过调研,开源社区已经找到多条达到 90%+ 精度的路径。以下是三条可行的技术路线,按性价比从高到低排列:
flowchart TB
subgraph R1["路线一:GRPO 强化学习(推荐)"]
A1["Qwen2.5-VL-3B/7B"] --> B1["17K 公开数据"]
B1 --> C1["GRPO + Fast Thinking"]
C1 --> D1["90.3% ScreenSpot"]
end
subgraph R2["路线二:大规模 SFT"]
A2["Qwen2.5-VL-7B"] --> B2["Jedi 400 万数据"]
B2 --> C2["多阶段微调"]
C2 --> D2["ScreenSpot-v2 SOTA"]
end
subgraph R3["路线三:组合增强"]
A3["任意基座模型"] --> B3["SFT 或 GRPO 训练"]
B3 --> C3["+ RegionFocus 推理增强"]
C3 --> D3["额外 +28% 提升"]
end
style R1 fill:#e8f5e9
style D1 fill:#4caf50,color:#fff
路线一:GRPO 强化学习(最高性价比)
这是目前复刻 VyUI 最推荐的路线。GUI-G1 证明了仅用 3B 模型 + 17K 数据就能达到 90.3%,而传统 SFT 方法需要数百万级数据才能接近这个精度。
为什么 GRPO 比 SFT 更适合 GUI Grounding
flowchart LR
subgraph SFT["SFT(监督微调)"]
S1["固定标注坐标"] --> S2["模型学习精确复制"]
S2 --> S3["只接受唯一正确答案"]
end
subgraph GRPO["GRPO(强化学习)"]
G1["采样多个预测"] --> G2["奖励落在目标区域内的点击"]
G2 --> G3["接受一定范围内的有效点击"]
end
style GRPO fill:#e8f5e9
GRPO(Group Relative Policy Optimization)的核心优势:
- 目标对齐 —— 真实场景中点击按钮任意位置都算成功,GRPO 奖励落在目标区域内的所有点击,而非要求精确复制标注坐标
- 数据效率 —— SE-GUI 用 3K 样本、GUI-G1 用 17K 样本就达到 SOTA,远少于 SFT 所需的数百万级数据
- 自我改进 —— 通过采样和比较自身输出来学习,不依赖昂贵的人工标注
GRPO 训练实现要点
基于 HuggingFace TRL 和 GUI-G1 的实践:
Step 1:选择基座模型
推荐: Qwen2.5-VL-3B-Instruct 或 Qwen2.5-VL-7B-Instruct原因: 天然支持坐标输出,GUI grounding 能力基线强Step 2:准备种子数据
可用的公开数据集:
- ScreenSpot 训练集
- SeeClick 的 Web grounding 数据
- UGround 数据子集
只需 17K-50K 高质量样本,格式为 (截图, 自然语言指令, 目标元素边界框)。
Step 3:设计奖励函数
def gui_grounding_reward(predicted_point, target_bbox, predicted_bbox=None): """ 核心奖励函数 - predicted_point: 模型预测的点击坐标 (x, y) - target_bbox: 目标元素的边界框 [x1, y1, x2, y2] - predicted_bbox: 如果模型输出边界框(可选) """ x, y = predicted_point x1, y1, x2, y2 = target_bbox
# 基础奖励:预测点是否在目标区域内(hit reward) hit = x1 <= x <= x2 and y1 <= y <= y2 reward = 1.0 if hit else 0.0
# 密集奖励:预测点与目标中心的距离(近则高分) cx, cy = (x1 + x2) / 2, (y1 + y2) / 2 dist = ((x - cx)**2 + (y - cy)**2) ** 0.5 max_dist = ((x2 - x1)**2 + (y2 - y1)**2) ** 0.5 proximity_reward = max(0, 1 - dist / max_dist)
# Box-size constraint:防止 reward hacking(输出超大框) if predicted_bbox: box_area = (predicted_bbox[2] - predicted_bbox[0]) * \ (predicted_bbox[3] - predicted_bbox[1]) target_area = (x2 - x1) * (y2 - y1) size_penalty = -0.5 if box_area > 4 * target_area else 0
reward += size_penalty
return reward + 0.3 * proximity_reward关键训练超参数:
| 参数 | 推荐值 | 说明 |
|---|---|---|
| batch_size | 大于 128 | 小 batch 会导致训练不稳定 |
| num_samples_per_prompt | 8 | 每条指令采样 8 个响应 |
| KL divergence | 不需要 | 研究表明 KL 约束对 grounding 无帮助 |
| 思维模板 | Fast Thinking | 避免长链推理,鼓励直接输出坐标 |
Step 4:Fast Thinking Template
GUI-G1 的关键发现 —— 长思维链反而损害 grounding 精度:
# 错误方式(长链推理)"请仔细分析这张截图。首先我看到了一个导航栏...然后在右上角有一个按钮... 根据指令的语义..."
# 正确方式(Fast Thinking)"<point>(0.73, 0.12)</point>"原因:GUI Grounding 本质是感知任务而非推理任务,过度推理引入噪声。
GRPO 路线预期成果
| 配置 | 预期精度 | 训练时间 | 硬件需求 |
|---|---|---|---|
| Qwen2.5-VL-3B + 17K 数据 | ~90% ScreenSpot | 约 8-12 小时 | 4x A100 |
| Qwen2.5-VL-7B + 50K 数据 | ~92% ScreenSpot | 约 16-24 小时 | 8x A100 |
| + Box-Size Constraint | +2-3% 额外提升 | - | - |
路线二:大规模 SFT + Jedi 数据集
适合追求极致精度且有充足 GPU 资源的场景。
Jedi 数据集
Jedi 是目前最大的 Computer-Use Grounding 数据集,包含 400 万样本。
数据构造管线(三类数据多视角解耦):
flowchart TB
subgraph Icons["图标数据"]
I1["GitHub 仓库采集"] --> I4["图标截图 + 标注"]
I2["专业图标网站"] --> I4
I3["逆向工程桌面应用\n(Windows/macOS/Linux)"] --> I4
end
subgraph Components["组件数据"]
C1["主流 UI 库\n(Material UI, Ant Design 等)"] --> C3["渲染截图 + 元素标注"]
C2["LLM 生成功能变体"] --> C3
end
subgraph Layouts["布局数据"]
L1["Figma 原型设计"] --> L3["完整页面截图 + 元素标注"]
L2["生产应用规范"] --> L3
end
I4 --> D["Jedi 400 万样本"]
C3 --> D
L3 --> D
D --> E["微调 Qwen2.5-VL"]
E --> F["ScreenSpot-v2 / ScreenSpot-Pro SOTA"]
关键发现:混合三类数据同时扩展,比单独扩展任一类数据产生更稳定的提升,且精度随数据量增长未出现饱和。
SFT 训练流程
Step 1: 数据准备
# 数据格式{ "image": "screenshot.png", # 截图 "query": "Click the submit button", # 自然语言指令 "answer": { "point": [0.73, 0.12], # 归一化坐标 "bbox": [0.70, 0.08, 0.80, 0.16] # 边界框(可选) }}可用的开源数据集组合:
| 数据集 | 规模 | 覆盖范围 | 获取方式 |
|---|---|---|---|
| Jedi | 400 万 | Web + Desktop + 图标 | HuggingFace |
| UGround Web-Hybrid | 900 万元素 | Web 页面 | 开源 |
| SeeClick Web + Mobile | ~100K | Web + Android | 开源 |
| ShowUI curated | 256K | 多平台 | 开源 |
| AutoGUI | 大规模 | LLM 自动标注 | 开源 |
Step 2: 两阶段微调
参考 Qwen-GUI-3B 的方案:
阶段一:跨平台泛化训练 - 混合 Web + Mobile + Desktop 数据 - 建立跨平台的 UI 理解基线
阶段二:领域特定优化 - 针对目标平台(如 macOS)的高分辨率数据 - 分辨率适配专项训练Step 3: 自动化数据采集管线(补充自有数据)
参考 AutoGUI 的方法:
- 自动化遍历目标应用的 UI 元素
- 对每个元素截图(交互前后两张)
- 用 LLM 根据前后截图变化推断元素功能描述
- LLM 辅助验证 + 拒绝低质量标注
- 输出
(截图, 功能描述, 边界框)训练样本
这种方法无需人工标注,可持续扩展数据规模。
路线三:推理时增强(零训练成本)
对于已有基础模型但精度不够的场景,可以通过推理时增强直接提升精度。
RegionFocus 动态缩放
RegionFocus 是 ICCV 2025 的工作,核心思路:
flowchart TD
A["输入:完整截图 + 指令"] --> B["基础模型初次预测"]
B --> C{"置信度足够?"}
C -->|"是"| D["输出坐标"]
C -->|"否"| E["根据 GUI 结构\n定位候选区域"]
E --> F["裁剪并放大候选区域"]
F --> G["模型在放大图上\n重新预测"]
G --> H["image-as-map\n标记已探索路标"]
H --> I["输出高精度坐标"]
效果:在 UI-TARS 和 Qwen2.5-VL 上分别带来 +28%(ScreenSpot-Pro) 和 +24%(WebVoyager) 的提升。
GUI-Cursor 迭代搜索
对于需要更高精度的场景,可以将 Grounding 改造为迭代搜索:
- 在截图上渲染一个可见光标
- 模型预测光标应该往哪个方向移动
- 移动光标,重新截图,继续预测
- 直到光标到达目标位置
优势:95% 的实例在 2 步内解决,困难实例自动获得更多计算预算。
三条路线对比
| 维度 | 路线一:GRPO RL | 路线二:大规模 SFT | 路线三:推理增强 |
|---|---|---|---|
| 数据需求 | 17K-50K | 百万级 | 零 |
| 训练成本 | 4-8x A100, 1 天 | 8-32x A100, 数天 | 无需训练 |
| ScreenSpot 精度 | ~90-92% | ~93-95% | 在基线上 +24-28% |
| ScreenSpot-Pro 精度 | ~37% | 较高 | 显著提升 |
| 工程复杂度 | 中等(需理解 RL) | 低(标准 SFT) | 低(即插即用) |
| 迭代速度 | 快 | 慢 | 即时 |
| 推荐场景 | 快速达到高精度 | 追求极致精度 | 增强现有模型 |
推荐组合策略
flowchart LR
A["Phase 1\n快速验证"] --> B["Phase 2\n精度冲刺"] --> C["Phase 3\n工程落地"]
Phase 1:快速验证(1-2 周)
- 基座:Qwen2.5-VL-7B-Instruct
- 方法:GRPO 训练(参考 GUI-G1)
- 数据:17K 公开数据
- 目标:ScreenSpot 90%+
- 产出:验证技术可行性
Phase 2:精度冲刺(2-4 周)
- 在 Phase 1 基础上追加 Jedi 数据集 SFT 预训练
- SFT 后再做 GRPO 强化学习(SFT + RL 两阶段)
- 叠加 RegionFocus 推理时增强
- 目标:ScreenSpot-v2 93%+,ScreenSpot-Pro 55%+
Phase 3:工程落地(2-4 周)
- 模型量化(INT4 / AWQ)降低推理延迟
- 搭建 Agent 循环框架(参考 OpenCUA / Agent-S)
- 截屏模块:macOS CGWindowListCreateImage / Windows Win32 API
- 操作执行:pyautogui / CGEvent API
- 错误恢复:失败重试 + 状态回退
- 目标:端到端可用的 Computer-Use Agent
多步任务可靠性分析
单步精度 p 在 n 步任务中的累积成功率为 p^n:
| 单步精度 | 5 步任务 | 10 步任务 | 20 步任务 |
|---|---|---|---|
| 75% | 23.7% | 5.6% | 0.3% |
| 85% | 44.4% | 19.7% | 3.9% |
| 90% | 59.0% | 34.9% | 12.2% |
| 92% | 65.9% | 43.4% | 18.9% |
| 95% | 77.4% | 59.9% | 35.8% |
这解释了为什么精度从 75% 到 90% 的提升对多步任务至关重要。结合错误恢复机制(检测失败后回退重试),实际可用性会显著高于上表。
成本估算
| 项目 | 最小配置 | 推荐配置 |
|---|---|---|
| GPU | 4x A100 (40GB) | 8x A100 (80GB) |
| 云端租用成本 | 约 $50-100/天 | 约 $150-200/天 |
| Phase 1 训练时间 | 8-12 小时 | 4-8 小时 |
| Phase 2 训练时间 | 2-3 天 | 1-2 天 |
| 推理部署 | 单卡 A100/4090 | 单卡即可 |
| 总预算(至 MVP) | 约 $500-1000 | 约 $1000-2000 |
参考资料
收购报道
高精度 UI Grounding 论文(核心复刻参考)
- GUI-G1: R1-Zero-Like Training for Visual Grounding - GRPO 训练,17K 数据达 90.3%
- GUI-Cursor: Learning GUI Grounding with Spatial Reasoning - 迭代搜索式定位,93.9%
- SE-GUI: Self-Evolutionary RL for GUI Grounding - 3K 数据达 SOTA (NeurIPS 2025)
- RegionFocus: Visual Test-time Scaling - 推理增强 +28% (ICCV 2025)
- MEGA-GUI: Multi-stage Enhanced Grounding - 多阶段管线 73.18%
- Jedi: Scaling Grounding via UI Decomposition - 400 万样本数据集
- GRPO for GUI Grounding Done Right - 训练实践指南
基础模型和框架
- UI-TARS-1.5 (ByteDance) - 综合最强开源 GUI Agent
- GUI-Actor (Microsoft) - 注意力头定位 (NeurIPS 2025)
- ShowUI (CVPR 2025) - 轻量端到端模型
- SeeClick (ACL 2024) - GUI Grounding 预训练先驱
- UGround (ICLR 2025) - 大规模合成数据训练
- OpenCUA Framework - 最完整开源 Agent 框架
- Agent-S - 自主学习 Agent 框架
Benchmark
- ScreenSpot-Pro - 专业级 GUI Grounding 评估
- OSWorld - 真实计算机任务评估
训练工具
- HuggingFace TRL - GRPO Trainer - GRPO 训练框架
- Qwen2.5-VL 模型 - 推荐基座模型
- Jedi 数据集 - 400 万 GUI Grounding 数据