Vercept Vy 核心技术调研：Vision-First Computer-Use Agent 复刻指南

Overview

2026 年 2 月 25 日，Anthropic 宣布收购西雅图 AI 创业公司 Vercept。Vercept 由 Allen Institute for AI (AI2) 校友创立，总融资约 5000 万美元，核心产品 Vy 是一个桌面端 Computer-Use Agent，能像人一样”看”屏幕并操作电脑完成复杂任务。

收购背景

核心团队

人物	背景	去向
Kiana Ehsani (CEO)	AI2 高级研究员，具身 AI	加入 Anthropic
Luca Weihs	AI2 研究经理，Agent + RL	加入 Anthropic
Ross Girshick	计算机视觉先驱，曾在 Meta AI	加入 Anthropic
Matt Deitke	AI2 研究员	被 Meta 超级智能实验室挖走

天使投资人包括前 Google CEO Eric Schmidt、DeepMind 首席科学家 Jeff Dean、Cruise 创始人 Kyle Vogt 等。

收购动机

Vercept’s team have spent years thinking carefully about how AI systems can see and act within the same software humans use every day. Their expertise maps onto some of the hardest problems we’re working on at Anthropic. —— Anthropic 官方公告

Anthropic 的 Claude Sonnet 4.6 在 OSWorld（真实计算机任务 benchmark）上已达 72.5%，从 2024 年底的不到 15% 大幅提升。收购 Vercept 预计将进一步推动这一能力。

VyUI 核心技术原理

Vision-First 架构

Vercept 的核心论点：AI Agent 在计算机任务上失败，不是因为不够聪明，而是因为看不见。

flowchart LR
    A[传统方法] --> B[解析 DOM/HTML]
    A --> C[Accessibility Tree]
    A --> D[依赖 API]
    E[Vy Vision-First] --> F[屏幕截图]
    E --> G[像素级视觉识别]
    E --> H[无需任何 API]
    style E fill:#4a9eff,color:#fff
    style F fill:#4a9eff,color:#fff
    style G fill:#4a9eff,color:#fff
    style H fill:#4a9eff,color:#fff

两种方法的对比：

维度	传统 DOM/API 方法	Vy Vision-First 方法
输入	HTML DOM 树、Accessibility Tree	屏幕截图（像素级）
识别方式	解析源代码结构	视觉识别按钮、输入框等 UI 元素
依赖	需要 API 或浏览器插件	无需任何 API 或插件
通用性	仅限支持 API 的应用	任何有屏幕的应用都可操作
优势	结构化信息精确	与人类使用方式一致
劣势	无法操作原生 App / 游戏等	精度依赖视觉模型能力

VyUI 模型核心能力

VyUI 是一个专为 UI Grounding（UI 定位） 设计的视觉语言模型，解决三个关键问题：

视觉上下文理解 —— 从截图中理解 UI 布局、元素类型、层级关系
自然语言映射 —— 将用户的自然语言指令映射到具体的屏幕元素坐标
实时精准操作 —— 输出精确的像素坐标，驱动鼠标点击和键盘输入

Benchmark 表现

VyUI 在主流 UI 识别基准上的表现：

Benchmark	VyUI	OpenAI 模型	差距
ScreenSpot v1	92%	18.3%	+73.7%
ScreenSpot v2	94.7%	87.9%	+6.8%
GroundUI Web	84.8%	82.3%	+2.5%

ScreenSpot 是评估 GUI Grounding 的主流 benchmark，涵盖 iOS、Android、macOS、Windows 和 Web 环境，包含 1200+ 条标注指令。

工作流程

flowchart TD
    A["用户下达自然语言指令"] --> B["频繁截屏（观察屏幕状态）"]
    B --> C["VyUI 模型分析截图"]
    C --> D["识别 UI 元素"]
    C --> E["理解当前页面状态"]
    D --> F["推理引擎拆解为子步骤"]
    E --> F
    F --> G["生成精确坐标 + 操作类型"]
    G --> H["模拟鼠标/键盘执行"]
    H --> I{"任务完成？"}
    I -->|"否"| B
    I -->|"是"| J["返回结果"]

VyUI 模型的推理过程可以概括为：

输入：屏幕截图 + 自然语言指令（如"点击发送按钮"）
  |
  v
视觉编码器提取图像特征
  |
  v
语言模型理解指令语义
  |
  v
跨模态融合：将语言指令与视觉特征对齐
  |
  v
输出：目标元素的精确坐标 (x, y)

UI Grounding 技术详解

UI Grounding 是 Computer-Use Agent 的核心基础能力 —— 给定一张屏幕截图和一条自然语言指令，精确定位指令所指的 UI 元素。

关键技术挑战

高分辨率处理 —— 专业软件界面元素密集且微小，需要在高分辨率截图上精准识别
跨平台泛化 —— 同一模型要能处理 Web、iOS、Android、macOS、Windows 各种 UI 风格
语义理解 —— 不仅识别”蓝色按钮”，还要理解”提交表单”映射到哪个按钮
动态界面 —— UI 状态不断变化（弹窗、加载、动画），模型需要实时适应

典型模型架构

大部分 UI Grounding 模型遵循类似的架构模式：

flowchart LR
    A["屏幕截图"] --> B["视觉编码器\n(ViT / SigLIP)"]
    C["自然语言指令"] --> D["文本编码器\n(LLM Tokenizer)"]
    B --> E["跨模态融合层"]
    D --> E
    E --> F["坐标预测头"]
    F --> G["输出 (x, y) 坐标"]

ScreenSpot Benchmark

ScreenSpot 是目前最主流的 GUI Grounding 评估基准：

ScreenSpot v1: 基础版，1200+ 条跨平台标注
ScreenSpot v2: 增强版，更多样化的场景
ScreenSpot-Pro: 专业版，1581 条专家标注，涵盖 23 个专业应用，针对高分辨率专业界面

各 benchmark 上的 SOTA 表现（截至 2026 年 2 月）：

模型	ScreenSpot v1	ScreenSpot v2	ScreenSpot-Pro
VyUI (Vercept 私有)	92%	94.7%	未公开
UI-TARS-1.5 (ByteDance)	-	94.2%	61.6%
GUI-Cursor (Qwen2.5-VL)	-	93.9%	56.5%
GUI-G1 (3B, GRPO)	90.3%	-	37.1%
MEGA-GUI (多阶段)	-	-	73.18%
RegionFocus (推理增强)	-	-	+28% 提升
OS-Atlas-7B	-	-	18.9%

关键发现：开源模型已经在 ScreenSpot v1/v2 上接近甚至匹敌 VyUI 的精度，但在更难的 ScreenSpot-Pro（高分辨率专业界面）上仍有差距。

开源 SOTA 方案全景

已接近 VyUI 精度的模型

以下模型在 ScreenSpot 系列 benchmark 上已接近甚至超越 VyUI 的 92-95% 精度：

UI-TARS-1.5（ByteDance Seed）

论文: UI-TARS: Pioneering Automated GUI Interaction with Native Agents
代码: github.com/bytedance/UI-TARS
模型: ByteDance-Seed/UI-TARS-1.5-7B
规模: 2B / 7B / 72B
ScreenSpot-v2: 94.2% | ScreenSpot-Pro: 61.6%

目前综合表现最强的开源 GUI Agent 模型。核心训练方法：

大规模感知预训练 —— 海量 GUI 截图解析元素描述、类型、边界框、功能文本
统一动作建模 —— 跨平台标准化动作空间
System-2 推理 —— 将深思熟虑的推理融入多步决策
迭代在线训练 —— 用反思性在线轨迹持续迭代

GUI-G1（GRPO 强化学习）

论文: GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding (NeurIPS 2025)
代码: github.com/Yuqi-Zhou/GUI-G1
基座: Qwen2.5-VL-3B-Instruct
ScreenSpot: 90.3% | ScreenSpot-Pro: 37.1%
训练数据: 仅 17K 公开样本

这是复刻 VyUI 精度最值得关注的方案 —— 仅用 3B 模型 + 17K 数据就达到 90.3%。核心发现：

Fast Thinking Template —— 发现长链推理反而降低 grounding 精度，采用快速思考模板鼓励直接定位
Box-Size Constraint —— 在奖励函数中加入框大小约束，防止 reward hacking
Difficulty-Aware Scaling —— 调整 RL 目标的长度归一化，增加难度感知缩放因子

GUI-Cursor（迭代搜索式定位）

论文: Learning GUI Grounding with Spatial Reasoning from Visual Feedback
基座: Qwen2.5-VL-7B
ScreenSpot-v2: 93.9% | ScreenSpot-Pro: 56.5%

颠覆性思路 —— 将 GUI Grounding 重新定义为交互式搜索任务：

不直接预测坐标，而是在屏幕上渲染一个可见光标
模型每步判断光标与目标的空间关系，逐步移动光标逼近目标
渲染的光标提供视觉反馈，帮助模型校准预测
95% 的实例在 2 步内解决，困难实例自适应增加步数

训练方式：多步在线强化学习 + 密集轨迹奖励函数。

SE-GUI（自进化强化学习）

论文: Enhancing Visual Grounding for GUI Agents via Self-Evolutionary RL (NeurIPS 2025)
代码: github.com/YXB-NKU/SE-GUI
基座: Qwen2.5-VL-7B
训练数据: 仅 3K 样本
成绩: 同等规模模型 SOTA

核心方法：

种子数据筛选 —— 确保高质量训练样本
密集策略梯度 —— 基于预测与真实值的接近程度提供连续反馈（非二值奖励）
自进化机制 —— 利用注意力图作为中间监督信号，迭代对齐模型关注区域

MEGA-GUI（多阶段管线）

论文: MEGA-GUI: Multi-stage Enhanced Grounding Agents
ScreenSpot-Pro: 73.18% | OSWorld-G: 68.63%

非端到端方案，而是多阶段管线：

粗粒度 ROI 选择 —— 先定位大致区域
双向 ROI 缩放 —— 放大感兴趣区域，消除空间稀释
上下文感知指令重写 —— 消除语义歧义
精细元素定位 —— 在缩放后的区域内精确定位

核心发现：不同 VLM 在不同视觉尺度上有互补的优劣势，模块化设计远优于单模型。

RegionFocus（推理时视觉缩放）

论文: Visual Test-time Scaling for GUI Agent Grounding (ICCV 2025)
代码: github.com/tiangeluo/RegionFocus
效果: 在 ScreenSpot-Pro 上 +28% 提升，WebVoyager 上 +24% 提升

关键价值：无需重新训练，作为即插即用插件为任何现有模型增强精度：

根据 GUI 知识动态缩放相关区域，减少背景干扰
用 image-as-map 机制可视化关键路标
推理时根据执行错误或模型自评估动态调整

早期基础方案

项目	类型	规模	关键成绩	适合场景
ShowUI (CVPR 2025)	Grounding 模型	2B	75.1% grounding	轻量级入门验证
SeeClick (ACL 2024)	Grounding 模型	~7B	首创 ScreenSpot	数据管线参考
UGround (ICLR 2025)	Grounding 模型	2B-72B	1000 万元素训练	大规模 SFT 参考
OpenCUA	完整框架	3B-72B	45% OSWorld	端到端框架参考
Agent-S	Agent 框架	多模型	超越 CUA/Claude	工程实践参考

Vercept 的隐藏线索

Vercept 使用 Together AI 的 Dedicated Endpoints 进行模型部署，案例研究透露了几个关键信息：

实现了亚 24 小时的模型迭代周期，意味着快速 benchmark 迭代是其达到高精度的关键
使用自动扩缩容基础设施，监控响应延迟和队列深度
多区域部署，Ross Girshick 的背景（Faster R-CNN、Mask R-CNN、Segment Anything 的开创者）暗示 VyUI 可能融合了目标检测的思路

复刻 VyUI 92%+ 精度：完整技术路线

核心结论

经过调研，开源社区已经找到多条达到 90%+ 精度的路径。以下是三条可行的技术路线，按性价比从高到低排列：

flowchart TB
    subgraph R1["路线一：GRPO 强化学习（推荐）"]
        A1["Qwen2.5-VL-3B/7B"] --> B1["17K 公开数据"]
        B1 --> C1["GRPO + Fast Thinking"]
        C1 --> D1["90.3% ScreenSpot"]
    end
    subgraph R2["路线二：大规模 SFT"]
        A2["Qwen2.5-VL-7B"] --> B2["Jedi 400 万数据"]
        B2 --> C2["多阶段微调"]
        C2 --> D2["ScreenSpot-v2 SOTA"]
    end
    subgraph R3["路线三：组合增强"]
        A3["任意基座模型"] --> B3["SFT 或 GRPO 训练"]
        B3 --> C3["+ RegionFocus 推理增强"]
        C3 --> D3["额外 +28% 提升"]
    end
    style R1 fill:#e8f5e9
    style D1 fill:#4caf50,color:#fff

路线一：GRPO 强化学习（最高性价比）

这是目前复刻 VyUI 最推荐的路线。GUI-G1 证明了仅用 3B 模型 + 17K 数据就能达到 90.3%，而传统 SFT 方法需要数百万级数据才能接近这个精度。

为什么 GRPO 比 SFT 更适合 GUI Grounding

flowchart LR
    subgraph SFT["SFT（监督微调）"]
        S1["固定标注坐标"] --> S2["模型学习精确复制"]
        S2 --> S3["只接受唯一正确答案"]
    end
    subgraph GRPO["GRPO（强化学习）"]
        G1["采样多个预测"] --> G2["奖励落在目标区域内的点击"]
        G2 --> G3["接受一定范围内的有效点击"]
    end
    style GRPO fill:#e8f5e9

GRPO（Group Relative Policy Optimization）的核心优势：

目标对齐 —— 真实场景中点击按钮任意位置都算成功，GRPO 奖励落在目标区域内的所有点击，而非要求精确复制标注坐标
数据效率 —— SE-GUI 用 3K 样本、GUI-G1 用 17K 样本就达到 SOTA，远少于 SFT 所需的数百万级数据
自我改进 —— 通过采样和比较自身输出来学习，不依赖昂贵的人工标注

GRPO 训练实现要点

基于 HuggingFace TRL 和 GUI-G1 的实践：

Step 1：选择基座模型

推荐: Qwen2.5-VL-3B-Instruct 或 Qwen2.5-VL-7B-Instruct
原因: 天然支持坐标输出，GUI grounding 能力基线强

Step 2：准备种子数据

可用的公开数据集：

ScreenSpot 训练集
SeeClick 的 Web grounding 数据
UGround 数据子集

只需 17K-50K 高质量样本，格式为 (截图, 自然语言指令, 目标元素边界框)。

Step 3：设计奖励函数

def gui_grounding_reward(predicted_point, target_bbox, predicted_bbox=None):
    """
    核心奖励函数
    - predicted_point: 模型预测的点击坐标 (x, y)
    - target_bbox: 目标元素的边界框 [x1, y1, x2, y2]
    - predicted_bbox: 如果模型输出边界框（可选）
    """
    x, y = predicted_point
    x1, y1, x2, y2 = target_bbox

    # 基础奖励：预测点是否在目标区域内（hit reward）
    hit = x1 <= x <= x2 and y1 <= y <= y2
    reward = 1.0 if hit else 0.0

    # 密集奖励：预测点与目标中心的距离（近则高分）
    cx, cy = (x1 + x2) / 2, (y1 + y2) / 2
    dist = ((x - cx)**2 + (y - cy)**2) ** 0.5
    max_dist = ((x2 - x1)**2 + (y2 - y1)**2) ** 0.5
    proximity_reward = max(0, 1 - dist / max_dist)

    # Box-size constraint：防止 reward hacking（输出超大框）
    if predicted_bbox:
        box_area = (predicted_bbox[2] - predicted_bbox[0]) * \
                   (predicted_bbox[3] - predicted_bbox[1])
        target_area = (x2 - x1) * (y2 - y1)
        size_penalty = -0.5 if box_area > 4 * target_area else 0

        reward += size_penalty

    return reward + 0.3 * proximity_reward

关键训练超参数：

参数	推荐值	说明
batch_size	大于 128	小 batch 会导致训练不稳定
num_samples_per_prompt	8	每条指令采样 8 个响应
KL divergence	不需要	研究表明 KL 约束对 grounding 无帮助
思维模板	Fast Thinking	避免长链推理，鼓励直接输出坐标

Step 4：Fast Thinking Template

GUI-G1 的关键发现 —— 长思维链反而损害 grounding 精度：

# 错误方式（长链推理）
"请仔细分析这张截图。首先我看到了一个导航栏...
然后在右上角有一个按钮... 根据指令的语义..."

# 正确方式（Fast Thinking）
"<point>(0.73, 0.12)</point>"

原因：GUI Grounding 本质是感知任务而非推理任务，过度推理引入噪声。

GRPO 路线预期成果

配置	预期精度	训练时间	硬件需求
Qwen2.5-VL-3B + 17K 数据	~90% ScreenSpot	约 8-12 小时	4x A100
Qwen2.5-VL-7B + 50K 数据	~92% ScreenSpot	约 16-24 小时	8x A100
+ Box-Size Constraint	+2-3% 额外提升	-	-

路线二：大规模 SFT + Jedi 数据集

适合追求极致精度且有充足 GPU 资源的场景。

Jedi 数据集

Jedi 是目前最大的 Computer-Use Grounding 数据集，包含 400 万样本。

数据构造管线（三类数据多视角解耦）：

flowchart TB
    subgraph Icons["图标数据"]
        I1["GitHub 仓库采集"] --> I4["图标截图 + 标注"]
        I2["专业图标网站"] --> I4
        I3["逆向工程桌面应用\n(Windows/macOS/Linux)"] --> I4
    end
    subgraph Components["组件数据"]
        C1["主流 UI 库\n(Material UI, Ant Design 等)"] --> C3["渲染截图 + 元素标注"]
        C2["LLM 生成功能变体"] --> C3
    end
    subgraph Layouts["布局数据"]
        L1["Figma 原型设计"] --> L3["完整页面截图 + 元素标注"]
        L2["生产应用规范"] --> L3
    end
    I4 --> D["Jedi 400 万样本"]
    C3 --> D
    L3 --> D
    D --> E["微调 Qwen2.5-VL"]
    E --> F["ScreenSpot-v2 / ScreenSpot-Pro SOTA"]

关键发现：混合三类数据同时扩展，比单独扩展任一类数据产生更稳定的提升，且精度随数据量增长未出现饱和。

SFT 训练流程

Step 1: 数据准备

# 数据格式
{
    "image": "screenshot.png",           # 截图
    "query": "Click the submit button",  # 自然语言指令
    "answer": {
        "point": [0.73, 0.12],          # 归一化坐标
        "bbox": [0.70, 0.08, 0.80, 0.16] # 边界框（可选）
    }
}

可用的开源数据集组合：

数据集	规模	覆盖范围	获取方式
Jedi	400 万	Web + Desktop + 图标	HuggingFace
UGround Web-Hybrid	900 万元素	Web 页面	开源
SeeClick Web + Mobile	~100K	Web + Android	开源
ShowUI curated	256K	多平台	开源
AutoGUI	大规模	LLM 自动标注	开源

Step 2: 两阶段微调

参考 Qwen-GUI-3B 的方案：

阶段一：跨平台泛化训练
  - 混合 Web + Mobile + Desktop 数据
  - 建立跨平台的 UI 理解基线

阶段二：领域特定优化
  - 针对目标平台（如 macOS）的高分辨率数据
  - 分辨率适配专项训练

Step 3: 自动化数据采集管线（补充自有数据）

参考 AutoGUI 的方法：

自动化遍历目标应用的 UI 元素
对每个元素截图（交互前后两张）
用 LLM 根据前后截图变化推断元素功能描述
LLM 辅助验证 + 拒绝低质量标注
输出 (截图, 功能描述, 边界框) 训练样本

这种方法无需人工标注，可持续扩展数据规模。

路线三：推理时增强（零训练成本）

对于已有基础模型但精度不够的场景，可以通过推理时增强直接提升精度。

RegionFocus 动态缩放

RegionFocus 是 ICCV 2025 的工作，核心思路：

flowchart TD
    A["输入：完整截图 + 指令"] --> B["基础模型初次预测"]
    B --> C{"置信度足够？"}
    C -->|"是"| D["输出坐标"]
    C -->|"否"| E["根据 GUI 结构\n定位候选区域"]
    E --> F["裁剪并放大候选区域"]
    F --> G["模型在放大图上\n重新预测"]
    G --> H["image-as-map\n标记已探索路标"]
    H --> I["输出高精度坐标"]

效果：在 UI-TARS 和 Qwen2.5-VL 上分别带来 +28%（ScreenSpot-Pro） 和 +24%（WebVoyager） 的提升。

GUI-Cursor 迭代搜索

对于需要更高精度的场景，可以将 Grounding 改造为迭代搜索：

在截图上渲染一个可见光标
模型预测光标应该往哪个方向移动
移动光标，重新截图，继续预测
直到光标到达目标位置

优势：95% 的实例在 2 步内解决，困难实例自动获得更多计算预算。

三条路线对比

维度	路线一：GRPO RL	路线二：大规模 SFT	路线三：推理增强
数据需求	17K-50K	百万级	零
训练成本	4-8x A100, 1 天	8-32x A100, 数天	无需训练
ScreenSpot 精度	~90-92%	~93-95%	在基线上 +24-28%
ScreenSpot-Pro 精度	~37%	较高	显著提升
工程复杂度	中等（需理解 RL）	低（标准 SFT）	低（即插即用）
迭代速度	快	慢	即时
推荐场景	快速达到高精度	追求极致精度	增强现有模型

多步任务可靠性分析

单步精度 p 在 n 步任务中的累积成功率为 p^n：

单步精度	5 步任务	10 步任务	20 步任务
75%	23.7%	5.6%	0.3%
85%	44.4%	19.7%	3.9%
90%	59.0%	34.9%	12.2%
92%	65.9%	43.4%	18.9%
95%	77.4%	59.9%	35.8%

这解释了为什么精度从 75% 到 90% 的提升对多步任务至关重要。结合错误恢复机制（检测失败后回退重试），实际可用性会显著高于上表。

成本估算

项目	最小配置	推荐配置
GPU	4x A100 (40GB)	8x A100 (80GB)
云端租用成本	约 $50-100/天	约 $150-200/天
Phase 1 训练时间	8-12 小时	4-8 小时
Phase 2 训练时间	2-3 天	1-2 天
推理部署	单卡 A100/4090	单卡即可
总预算（至 MVP）	约 $500-1000	约 $1000-2000

参考资料

收购报道

高精度 UI Grounding 论文（核心复刻参考）

GUI-G1: R1-Zero-Like Training for Visual Grounding - GRPO 训练，17K 数据达 90.3%
GUI-Cursor: Learning GUI Grounding with Spatial Reasoning - 迭代搜索式定位，93.9%
SE-GUI: Self-Evolutionary RL for GUI Grounding - 3K 数据达 SOTA (NeurIPS 2025)
RegionFocus: Visual Test-time Scaling - 推理增强 +28% (ICCV 2025)
MEGA-GUI: Multi-stage Enhanced Grounding - 多阶段管线 73.18%
Jedi: Scaling Grounding via UI Decomposition - 400 万样本数据集
GRPO for GUI Grounding Done Right - 训练实践指南

基础模型和框架

UI-TARS-1.5 (ByteDance) - 综合最强开源 GUI Agent
GUI-Actor (Microsoft) - 注意力头定位 (NeurIPS 2025)
ShowUI (CVPR 2025) - 轻量端到端模型
SeeClick (ACL 2024) - GUI Grounding 预训练先驱
UGround (ICLR 2025) - 大规模合成数据训练
OpenCUA Framework - 最完整开源 Agent 框架
Agent-S - 自主学习 Agent 框架

Benchmark

ScreenSpot-Pro - 专业级 GUI Grounding 评估
OSWorld - 真实计算机任务评估

训练工具

HuggingFace TRL - GRPO Trainer - GRPO 训练框架
Qwen2.5-VL 模型 - 推荐基座模型
Jedi 数据集 - 400 万 GUI Grounding 数据