Vercept Vy 核心技术调研:Vision-First Computer-Use Agent 复刻指南

Overview

2026 年 2 月 25 日,Anthropic 宣布收购西雅图 AI 创业公司 Vercept。Vercept 由 Allen Institute for AI (AI2) 校友创立,总融资约 5000 万美元,核心产品 Vy 是一个桌面端 Computer-Use Agent,能像人一样”看”屏幕并操作电脑完成复杂任务。

收购背景

核心团队

人物背景去向
Kiana Ehsani (CEO)AI2 高级研究员,具身 AI加入 Anthropic
Luca WeihsAI2 研究经理,Agent + RL加入 Anthropic
Ross Girshick计算机视觉先驱,曾在 Meta AI加入 Anthropic
Matt DeitkeAI2 研究员被 Meta 超级智能实验室挖走

天使投资人包括前 Google CEO Eric Schmidt、DeepMind 首席科学家 Jeff Dean、Cruise 创始人 Kyle Vogt 等。

收购动机

Vercept’s team have spent years thinking carefully about how AI systems can see and act within the same software humans use every day. Their expertise maps onto some of the hardest problems we’re working on at Anthropic. —— Anthropic 官方公告

Anthropic 的 Claude Sonnet 4.6 在 OSWorld(真实计算机任务 benchmark)上已达 72.5%,从 2024 年底的不到 15% 大幅提升。收购 Vercept 预计将进一步推动这一能力。

VyUI 核心技术原理

Vision-First 架构

Vercept 的核心论点:AI Agent 在计算机任务上失败,不是因为不够聪明,而是因为看不见。

flowchart LR
    A[传统方法] --> B[解析 DOM/HTML]
    A --> C[Accessibility Tree]
    A --> D[依赖 API]
    E[Vy Vision-First] --> F[屏幕截图]
    E --> G[像素级视觉识别]
    E --> H[无需任何 API]
    style E fill:#4a9eff,color:#fff
    style F fill:#4a9eff,color:#fff
    style G fill:#4a9eff,color:#fff
    style H fill:#4a9eff,color:#fff

两种方法的对比:

维度传统 DOM/API 方法Vy Vision-First 方法
输入HTML DOM 树、Accessibility Tree屏幕截图(像素级)
识别方式解析源代码结构视觉识别按钮、输入框等 UI 元素
依赖需要 API 或浏览器插件无需任何 API 或插件
通用性仅限支持 API 的应用任何有屏幕的应用都可操作
优势结构化信息精确与人类使用方式一致
劣势无法操作原生 App / 游戏等精度依赖视觉模型能力

VyUI 模型核心能力

VyUI 是一个专为 UI Grounding(UI 定位) 设计的视觉语言模型,解决三个关键问题:

  1. 视觉上下文理解 —— 从截图中理解 UI 布局、元素类型、层级关系
  2. 自然语言映射 —— 将用户的自然语言指令映射到具体的屏幕元素坐标
  3. 实时精准操作 —— 输出精确的像素坐标,驱动鼠标点击和键盘输入

Benchmark 表现

VyUI 在主流 UI 识别基准上的表现:

BenchmarkVyUIOpenAI 模型差距
ScreenSpot v192%18.3%+73.7%
ScreenSpot v294.7%87.9%+6.8%
GroundUI Web84.8%82.3%+2.5%

ScreenSpot 是评估 GUI Grounding 的主流 benchmark,涵盖 iOS、Android、macOS、Windows 和 Web 环境,包含 1200+ 条标注指令。

工作流程

flowchart TD
    A["用户下达自然语言指令"] --> B["频繁截屏(观察屏幕状态)"]
    B --> C["VyUI 模型分析截图"]
    C --> D["识别 UI 元素"]
    C --> E["理解当前页面状态"]
    D --> F["推理引擎拆解为子步骤"]
    E --> F
    F --> G["生成精确坐标 + 操作类型"]
    G --> H["模拟鼠标/键盘执行"]
    H --> I{"任务完成?"}
    I -->|"否"| B
    I -->|"是"| J["返回结果"]

VyUI 模型的推理过程可以概括为:

输入:屏幕截图 + 自然语言指令(如"点击发送按钮")
|
v
视觉编码器提取图像特征
|
v
语言模型理解指令语义
|
v
跨模态融合:将语言指令与视觉特征对齐
|
v
输出:目标元素的精确坐标 (x, y)

UI Grounding 技术详解

UI Grounding 是 Computer-Use Agent 的核心基础能力 —— 给定一张屏幕截图和一条自然语言指令,精确定位指令所指的 UI 元素。

关键技术挑战

  1. 高分辨率处理 —— 专业软件界面元素密集且微小,需要在高分辨率截图上精准识别
  2. 跨平台泛化 —— 同一模型要能处理 Web、iOS、Android、macOS、Windows 各种 UI 风格
  3. 语义理解 —— 不仅识别”蓝色按钮”,还要理解”提交表单”映射到哪个按钮
  4. 动态界面 —— UI 状态不断变化(弹窗、加载、动画),模型需要实时适应

典型模型架构

大部分 UI Grounding 模型遵循类似的架构模式:

flowchart LR
    A["屏幕截图"] --> B["视觉编码器\n(ViT / SigLIP)"]
    C["自然语言指令"] --> D["文本编码器\n(LLM Tokenizer)"]
    B --> E["跨模态融合层"]
    D --> E
    E --> F["坐标预测头"]
    F --> G["输出 (x, y) 坐标"]

ScreenSpot Benchmark

ScreenSpot 是目前最主流的 GUI Grounding 评估基准:

  • ScreenSpot v1: 基础版,1200+ 条跨平台标注
  • ScreenSpot v2: 增强版,更多样化的场景
  • ScreenSpot-Pro: 专业版,1581 条专家标注,涵盖 23 个专业应用,针对高分辨率专业界面

各 benchmark 上的 SOTA 表现(截至 2026 年 2 月):

模型ScreenSpot v1ScreenSpot v2ScreenSpot-Pro
VyUI (Vercept 私有)92%94.7%未公开
UI-TARS-1.5 (ByteDance)-94.2%61.6%
GUI-Cursor (Qwen2.5-VL)-93.9%56.5%
GUI-G1 (3B, GRPO)90.3%-37.1%
MEGA-GUI (多阶段)--73.18%
RegionFocus (推理增强)--+28% 提升
OS-Atlas-7B--18.9%

关键发现:开源模型已经在 ScreenSpot v1/v2 上接近甚至匹敌 VyUI 的精度,但在更难的 ScreenSpot-Pro(高分辨率专业界面)上仍有差距。

开源 SOTA 方案全景

已接近 VyUI 精度的模型

以下模型在 ScreenSpot 系列 benchmark 上已接近甚至超越 VyUI 的 92-95% 精度

UI-TARS-1.5(ByteDance Seed)

目前综合表现最强的开源 GUI Agent 模型。核心训练方法:

  1. 大规模感知预训练 —— 海量 GUI 截图解析元素描述、类型、边界框、功能文本
  2. 统一动作建模 —— 跨平台标准化动作空间
  3. System-2 推理 —— 将深思熟虑的推理融入多步决策
  4. 迭代在线训练 —— 用反思性在线轨迹持续迭代

GUI-G1(GRPO 强化学习)

这是复刻 VyUI 精度最值得关注的方案 —— 仅用 3B 模型 + 17K 数据就达到 90.3%。核心发现:

  1. Fast Thinking Template —— 发现长链推理反而降低 grounding 精度,采用快速思考模板鼓励直接定位
  2. Box-Size Constraint —— 在奖励函数中加入框大小约束,防止 reward hacking
  3. Difficulty-Aware Scaling —— 调整 RL 目标的长度归一化,增加难度感知缩放因子

GUI-Cursor(迭代搜索式定位)

颠覆性思路 —— 将 GUI Grounding 重新定义为交互式搜索任务

  1. 不直接预测坐标,而是在屏幕上渲染一个可见光标
  2. 模型每步判断光标与目标的空间关系,逐步移动光标逼近目标
  3. 渲染的光标提供视觉反馈,帮助模型校准预测
  4. 95% 的实例在 2 步内解决,困难实例自适应增加步数

训练方式:多步在线强化学习 + 密集轨迹奖励函数。

SE-GUI(自进化强化学习)

核心方法:

  1. 种子数据筛选 —— 确保高质量训练样本
  2. 密集策略梯度 —— 基于预测与真实值的接近程度提供连续反馈(非二值奖励)
  3. 自进化机制 —— 利用注意力图作为中间监督信号,迭代对齐模型关注区域

MEGA-GUI(多阶段管线)

非端到端方案,而是多阶段管线

  1. 粗粒度 ROI 选择 —— 先定位大致区域
  2. 双向 ROI 缩放 —— 放大感兴趣区域,消除空间稀释
  3. 上下文感知指令重写 —— 消除语义歧义
  4. 精细元素定位 —— 在缩放后的区域内精确定位

核心发现:不同 VLM 在不同视觉尺度上有互补的优劣势,模块化设计远优于单模型。

RegionFocus(推理时视觉缩放)

关键价值:无需重新训练,作为即插即用插件为任何现有模型增强精度:

  1. 根据 GUI 知识动态缩放相关区域,减少背景干扰
  2. 用 image-as-map 机制可视化关键路标
  3. 推理时根据执行错误或模型自评估动态调整

早期基础方案

项目类型规模关键成绩适合场景
ShowUI (CVPR 2025)Grounding 模型2B75.1% grounding轻量级入门验证
SeeClick (ACL 2024)Grounding 模型~7B首创 ScreenSpot数据管线参考
UGround (ICLR 2025)Grounding 模型2B-72B1000 万元素训练大规模 SFT 参考
OpenCUA完整框架3B-72B45% OSWorld端到端框架参考
Agent-SAgent 框架多模型超越 CUA/Claude工程实践参考

Vercept 的隐藏线索

Vercept 使用 Together AI 的 Dedicated Endpoints 进行模型部署,案例研究透露了几个关键信息:

  • 实现了亚 24 小时的模型迭代周期,意味着快速 benchmark 迭代是其达到高精度的关键
  • 使用自动扩缩容基础设施,监控响应延迟和队列深度
  • 多区域部署,Ross Girshick 的背景(Faster R-CNN、Mask R-CNN、Segment Anything 的开创者)暗示 VyUI 可能融合了目标检测的思路

复刻 VyUI 92%+ 精度:完整技术路线

核心结论

经过调研,开源社区已经找到多条达到 90%+ 精度的路径。以下是三条可行的技术路线,按性价比从高到低排列:

flowchart TB
    subgraph R1["路线一:GRPO 强化学习(推荐)"]
        A1["Qwen2.5-VL-3B/7B"] --> B1["17K 公开数据"]
        B1 --> C1["GRPO + Fast Thinking"]
        C1 --> D1["90.3% ScreenSpot"]
    end
    subgraph R2["路线二:大规模 SFT"]
        A2["Qwen2.5-VL-7B"] --> B2["Jedi 400 万数据"]
        B2 --> C2["多阶段微调"]
        C2 --> D2["ScreenSpot-v2 SOTA"]
    end
    subgraph R3["路线三:组合增强"]
        A3["任意基座模型"] --> B3["SFT 或 GRPO 训练"]
        B3 --> C3["+ RegionFocus 推理增强"]
        C3 --> D3["额外 +28% 提升"]
    end
    style R1 fill:#e8f5e9
    style D1 fill:#4caf50,color:#fff

路线一:GRPO 强化学习(最高性价比)

这是目前复刻 VyUI 最推荐的路线。GUI-G1 证明了仅用 3B 模型 + 17K 数据就能达到 90.3%,而传统 SFT 方法需要数百万级数据才能接近这个精度。

为什么 GRPO 比 SFT 更适合 GUI Grounding

flowchart LR
    subgraph SFT["SFT(监督微调)"]
        S1["固定标注坐标"] --> S2["模型学习精确复制"]
        S2 --> S3["只接受唯一正确答案"]
    end
    subgraph GRPO["GRPO(强化学习)"]
        G1["采样多个预测"] --> G2["奖励落在目标区域内的点击"]
        G2 --> G3["接受一定范围内的有效点击"]
    end
    style GRPO fill:#e8f5e9

GRPO(Group Relative Policy Optimization)的核心优势:

  • 目标对齐 —— 真实场景中点击按钮任意位置都算成功,GRPO 奖励落在目标区域内的所有点击,而非要求精确复制标注坐标
  • 数据效率 —— SE-GUI 用 3K 样本、GUI-G1 用 17K 样本就达到 SOTA,远少于 SFT 所需的数百万级数据
  • 自我改进 —— 通过采样和比较自身输出来学习,不依赖昂贵的人工标注

GRPO 训练实现要点

基于 HuggingFace TRLGUI-G1 的实践:

Step 1:选择基座模型

推荐: Qwen2.5-VL-3B-Instruct 或 Qwen2.5-VL-7B-Instruct
原因: 天然支持坐标输出,GUI grounding 能力基线强

Step 2:准备种子数据

可用的公开数据集:

  • ScreenSpot 训练集
  • SeeClick 的 Web grounding 数据
  • UGround 数据子集

只需 17K-50K 高质量样本,格式为 (截图, 自然语言指令, 目标元素边界框)

Step 3:设计奖励函数

def gui_grounding_reward(predicted_point, target_bbox, predicted_bbox=None):
"""
核心奖励函数
- predicted_point: 模型预测的点击坐标 (x, y)
- target_bbox: 目标元素的边界框 [x1, y1, x2, y2]
- predicted_bbox: 如果模型输出边界框(可选)
"""
x, y = predicted_point
x1, y1, x2, y2 = target_bbox
# 基础奖励:预测点是否在目标区域内(hit reward)
hit = x1 <= x <= x2 and y1 <= y <= y2
reward = 1.0 if hit else 0.0
# 密集奖励:预测点与目标中心的距离(近则高分)
cx, cy = (x1 + x2) / 2, (y1 + y2) / 2
dist = ((x - cx)**2 + (y - cy)**2) ** 0.5
max_dist = ((x2 - x1)**2 + (y2 - y1)**2) ** 0.5
proximity_reward = max(0, 1 - dist / max_dist)
# Box-size constraint:防止 reward hacking(输出超大框)
if predicted_bbox:
box_area = (predicted_bbox[2] - predicted_bbox[0]) * \
(predicted_bbox[3] - predicted_bbox[1])
target_area = (x2 - x1) * (y2 - y1)
size_penalty = -0.5 if box_area > 4 * target_area else 0
reward += size_penalty
return reward + 0.3 * proximity_reward

关键训练超参数

参数推荐值说明
batch_size大于 128小 batch 会导致训练不稳定
num_samples_per_prompt8每条指令采样 8 个响应
KL divergence不需要研究表明 KL 约束对 grounding 无帮助
思维模板Fast Thinking避免长链推理,鼓励直接输出坐标

Step 4:Fast Thinking Template

GUI-G1 的关键发现 —— 长思维链反而损害 grounding 精度:

# 错误方式(长链推理)
"请仔细分析这张截图。首先我看到了一个导航栏...
然后在右上角有一个按钮... 根据指令的语义..."
# 正确方式(Fast Thinking)
"<point>(0.73, 0.12)</point>"

原因:GUI Grounding 本质是感知任务而非推理任务,过度推理引入噪声。

GRPO 路线预期成果

配置预期精度训练时间硬件需求
Qwen2.5-VL-3B + 17K 数据~90% ScreenSpot约 8-12 小时4x A100
Qwen2.5-VL-7B + 50K 数据~92% ScreenSpot约 16-24 小时8x A100
+ Box-Size Constraint+2-3% 额外提升--

路线二:大规模 SFT + Jedi 数据集

适合追求极致精度且有充足 GPU 资源的场景。

Jedi 数据集

Jedi 是目前最大的 Computer-Use Grounding 数据集,包含 400 万样本

数据构造管线(三类数据多视角解耦):

flowchart TB
    subgraph Icons["图标数据"]
        I1["GitHub 仓库采集"] --> I4["图标截图 + 标注"]
        I2["专业图标网站"] --> I4
        I3["逆向工程桌面应用\n(Windows/macOS/Linux)"] --> I4
    end
    subgraph Components["组件数据"]
        C1["主流 UI 库\n(Material UI, Ant Design 等)"] --> C3["渲染截图 + 元素标注"]
        C2["LLM 生成功能变体"] --> C3
    end
    subgraph Layouts["布局数据"]
        L1["Figma 原型设计"] --> L3["完整页面截图 + 元素标注"]
        L2["生产应用规范"] --> L3
    end
    I4 --> D["Jedi 400 万样本"]
    C3 --> D
    L3 --> D
    D --> E["微调 Qwen2.5-VL"]
    E --> F["ScreenSpot-v2 / ScreenSpot-Pro SOTA"]

关键发现:混合三类数据同时扩展,比单独扩展任一类数据产生更稳定的提升,且精度随数据量增长未出现饱和

SFT 训练流程

Step 1: 数据准备

# 数据格式
{
"image": "screenshot.png", # 截图
"query": "Click the submit button", # 自然语言指令
"answer": {
"point": [0.73, 0.12], # 归一化坐标
"bbox": [0.70, 0.08, 0.80, 0.16] # 边界框(可选)
}
}

可用的开源数据集组合:

数据集规模覆盖范围获取方式
Jedi400 万Web + Desktop + 图标HuggingFace
UGround Web-Hybrid900 万元素Web 页面开源
SeeClick Web + Mobile~100KWeb + Android开源
ShowUI curated256K多平台开源
AutoGUI大规模LLM 自动标注开源

Step 2: 两阶段微调

参考 Qwen-GUI-3B 的方案:

阶段一:跨平台泛化训练
- 混合 Web + Mobile + Desktop 数据
- 建立跨平台的 UI 理解基线
阶段二:领域特定优化
- 针对目标平台(如 macOS)的高分辨率数据
- 分辨率适配专项训练

Step 3: 自动化数据采集管线(补充自有数据)

参考 AutoGUI 的方法:

  1. 自动化遍历目标应用的 UI 元素
  2. 对每个元素截图(交互前后两张)
  3. 用 LLM 根据前后截图变化推断元素功能描述
  4. LLM 辅助验证 + 拒绝低质量标注
  5. 输出 (截图, 功能描述, 边界框) 训练样本

这种方法无需人工标注,可持续扩展数据规模。

路线三:推理时增强(零训练成本)

对于已有基础模型但精度不够的场景,可以通过推理时增强直接提升精度。

RegionFocus 动态缩放

RegionFocus 是 ICCV 2025 的工作,核心思路:

flowchart TD
    A["输入:完整截图 + 指令"] --> B["基础模型初次预测"]
    B --> C{"置信度足够?"}
    C -->|"是"| D["输出坐标"]
    C -->|"否"| E["根据 GUI 结构\n定位候选区域"]
    E --> F["裁剪并放大候选区域"]
    F --> G["模型在放大图上\n重新预测"]
    G --> H["image-as-map\n标记已探索路标"]
    H --> I["输出高精度坐标"]

效果:在 UI-TARS 和 Qwen2.5-VL 上分别带来 +28%(ScreenSpot-Pro)+24%(WebVoyager) 的提升。

GUI-Cursor 迭代搜索

对于需要更高精度的场景,可以将 Grounding 改造为迭代搜索:

  1. 在截图上渲染一个可见光标
  2. 模型预测光标应该往哪个方向移动
  3. 移动光标,重新截图,继续预测
  4. 直到光标到达目标位置

优势:95% 的实例在 2 步内解决,困难实例自动获得更多计算预算。

三条路线对比

维度路线一:GRPO RL路线二:大规模 SFT路线三:推理增强
数据需求17K-50K百万级
训练成本4-8x A100, 1 天8-32x A100, 数天无需训练
ScreenSpot 精度~90-92%~93-95%在基线上 +24-28%
ScreenSpot-Pro 精度~37%较高显著提升
工程复杂度中等(需理解 RL)低(标准 SFT)低(即插即用)
迭代速度即时
推荐场景快速达到高精度追求极致精度增强现有模型

推荐组合策略

flowchart LR
    A["Phase 1\n快速验证"] --> B["Phase 2\n精度冲刺"] --> C["Phase 3\n工程落地"]

Phase 1:快速验证(1-2 周)

  • 基座:Qwen2.5-VL-7B-Instruct
  • 方法:GRPO 训练(参考 GUI-G1)
  • 数据:17K 公开数据
  • 目标:ScreenSpot 90%+
  • 产出:验证技术可行性

Phase 2:精度冲刺(2-4 周)

  • 在 Phase 1 基础上追加 Jedi 数据集 SFT 预训练
  • SFT 后再做 GRPO 强化学习(SFT + RL 两阶段)
  • 叠加 RegionFocus 推理时增强
  • 目标:ScreenSpot-v2 93%+,ScreenSpot-Pro 55%+

Phase 3:工程落地(2-4 周)

  • 模型量化(INT4 / AWQ)降低推理延迟
  • 搭建 Agent 循环框架(参考 OpenCUA / Agent-S)
  • 截屏模块:macOS CGWindowListCreateImage / Windows Win32 API
  • 操作执行:pyautogui / CGEvent API
  • 错误恢复:失败重试 + 状态回退
  • 目标:端到端可用的 Computer-Use Agent

多步任务可靠性分析

单步精度 p 在 n 步任务中的累积成功率为 p^n:

单步精度5 步任务10 步任务20 步任务
75%23.7%5.6%0.3%
85%44.4%19.7%3.9%
90%59.0%34.9%12.2%
92%65.9%43.4%18.9%
95%77.4%59.9%35.8%

这解释了为什么精度从 75% 到 90% 的提升对多步任务至关重要。结合错误恢复机制(检测失败后回退重试),实际可用性会显著高于上表。

成本估算

项目最小配置推荐配置
GPU4x A100 (40GB)8x A100 (80GB)
云端租用成本约 $50-100/天约 $150-200/天
Phase 1 训练时间8-12 小时4-8 小时
Phase 2 训练时间2-3 天1-2 天
推理部署单卡 A100/4090单卡即可
总预算(至 MVP)约 $500-1000约 $1000-2000

参考资料

收购报道

高精度 UI Grounding 论文(核心复刻参考)

基础模型和框架

Benchmark

训练工具

Read Next

RAG 技术方案深度调研(2025-2026)

Read Previous

GORM 企业级实战:大规模 Go 应用的生产模式与最佳实践