Peekaboo v3发布:AI Agent终于有了眼睛和手

Published on: 2026-05-18

Peekaboo v3发布:AI Agent终于有了"眼睛和手",能看屏幕、点按钮了

OpenClaw生态的新成员Peekaboo发布了v3版本。一句话说清楚它是什么:让所有AI Agent都能像人类一样"看屏幕、点按钮"。macOS专属,一日三迭代,节奏快得吓人。


配图

为什么AI Agent的"手眼协调"是关键瓶颈?

人类操作计算机最基本的能力是"看"和"点"——看到屏幕上有个按钮,点击它。

但AI Agent一直缺少这个能力。大部分Agent只能通过API或命令行交互——它们能读代码、写文件,但不能像一个真正的用户那样操作图形界面。

Peekaboo v3解决的就是这个:

能力 传统Agent Peekaboo
屏幕感知 ❌ 只能读文本/API ✅ 捕获屏幕像素+可访问性元素树
界面操作 ❌ 只能命令行 ✅ 模拟人类点击、输入、拖拽
工具整合 ❌ 各自独立 ✅ MCP Server统一接入

一日三迭代,这个节奏意味着什么?

Peekaboo在5月11日做了v3.1.0 → v3.1.1 → v3.1.2三个版本的迭代,同一天。

这种迭代密度在开源项目中极为罕见。它反映了几件事:

  1. 团队在冲刺:不是"打磨好了再发布",而是"发出去让用户反馈,立刻修复"
  2. 社区反馈极快:每个版本都有真实的用户反馈驱动
  3. 方向极度确定:一日三迭代说明团队非常清楚要做什么,只是细节在打磨

这种节奏在消费互联网时代见过(美团早期"一日三迭代"),但发生在开源AI工具上,是信号——这件事的需求是真实且迫切的。


对Codex、Claude Code、Cursor意味着什么?

Peekaboo的定位很特殊:它不是一个独立的AI Agent,而是所有AI Agent的"眼睛和手"

这意味着: - Codex可以用Peekaboo看到开发者在做什么 - Claude Code可以用Peekaboo操作图形界面工具 - Cursor可以用Peekaboo感知更多的开发上下文

Peekaboo让Agent之间的界限变模糊了——大家都用同一套"感知-操作"接口,比拼的不是能力而是编排逻辑。


铠盒关联:本地AI的"手眼协调"能力

Peekaboo解决的是云端和本地Agent都面临的问题。但本地Agent有一个天然优势:

  1. 屏幕像素不需要上传云端——隐私不泄露
  2. 低延迟操作——本地运行,无网络延迟
  3. 离线也能用——断网不影响Agent的感知和操作

macOS专属目前是限制,但核心逻辑可以迁移。如果Peekaboo的思路扩展到跨平台,一台能"看得到屏幕、点得了按钮"的铠盒设备,价值会翻倍。


一句话总结:Peekaboo v3补上了AI Agent最大的一块拼图——感官能力。一日三迭代的节奏说明这个需求真实且紧迫。AI Agent从"后台苦工"向"桌面土著"的进化,刚刚开始。


OpenClaw专区追踪社区最新动态。关注我们,见证Agent能力的每一次突破。

© KAIHE AI - Agent Computer Specialist