Peekaboo v3发布:AI Agent终于有了"眼睛和手",能看屏幕、点按钮了
OpenClaw生态的新成员Peekaboo发布了v3版本。一句话说清楚它是什么:让所有AI Agent都能像人类一样"看屏幕、点按钮"。macOS专属,一日三迭代,节奏快得吓人。

为什么AI Agent的"手眼协调"是关键瓶颈?
人类操作计算机最基本的能力是"看"和"点"——看到屏幕上有个按钮,点击它。
但AI Agent一直缺少这个能力。大部分Agent只能通过API或命令行交互——它们能读代码、写文件,但不能像一个真正的用户那样操作图形界面。
Peekaboo v3解决的就是这个:
| 能力 | 传统Agent | Peekaboo |
|---|---|---|
| 屏幕感知 | ❌ 只能读文本/API | ✅ 捕获屏幕像素+可访问性元素树 |
| 界面操作 | ❌ 只能命令行 | ✅ 模拟人类点击、输入、拖拽 |
| 工具整合 | ❌ 各自独立 | ✅ MCP Server统一接入 |
一日三迭代,这个节奏意味着什么?
Peekaboo在5月11日做了v3.1.0 → v3.1.1 → v3.1.2三个版本的迭代,同一天。
这种迭代密度在开源项目中极为罕见。它反映了几件事:
- 团队在冲刺:不是"打磨好了再发布",而是"发出去让用户反馈,立刻修复"
- 社区反馈极快:每个版本都有真实的用户反馈驱动
- 方向极度确定:一日三迭代说明团队非常清楚要做什么,只是细节在打磨
这种节奏在消费互联网时代见过(美团早期"一日三迭代"),但发生在开源AI工具上,是信号——这件事的需求是真实且迫切的。
对Codex、Claude Code、Cursor意味着什么?
Peekaboo的定位很特殊:它不是一个独立的AI Agent,而是所有AI Agent的"眼睛和手"。
这意味着: - Codex可以用Peekaboo看到开发者在做什么 - Claude Code可以用Peekaboo操作图形界面工具 - Cursor可以用Peekaboo感知更多的开发上下文
Peekaboo让Agent之间的界限变模糊了——大家都用同一套"感知-操作"接口,比拼的不是能力而是编排逻辑。
铠盒关联:本地AI的"手眼协调"能力
Peekaboo解决的是云端和本地Agent都面临的问题。但本地Agent有一个天然优势:
- 屏幕像素不需要上传云端——隐私不泄露
- 低延迟操作——本地运行,无网络延迟
- 离线也能用——断网不影响Agent的感知和操作
macOS专属目前是限制,但核心逻辑可以迁移。如果Peekaboo的思路扩展到跨平台,一台能"看得到屏幕、点得了按钮"的铠盒设备,价值会翻倍。
一句话总结:Peekaboo v3补上了AI Agent最大的一块拼图——感官能力。一日三迭代的节奏说明这个需求真实且紧迫。AI Agent从"后台苦工"向"桌面土著"的进化,刚刚开始。
OpenClaw专区追踪社区最新动态。关注我们,见证Agent能力的每一次突破。