Peekaboo v3发布：AI Agent终于有了"眼睛和手"，能看屏幕、点按钮了

OpenClaw生态的新成员Peekaboo发布了v3版本。一句话说清楚它是什么：让所有AI Agent都能像人类一样"看屏幕、点按钮"。macOS专属，一日三迭代，节奏快得吓人。

为什么AI Agent的"手眼协调"是关键瓶颈？

人类操作计算机最基本的能力是"看"和"点"——看到屏幕上有个按钮，点击它。

但AI Agent一直缺少这个能力。大部分Agent只能通过API或命令行交互——它们能读代码、写文件，但不能像一个真正的用户那样操作图形界面。

Peekaboo v3解决的就是这个：

Peekaboo在5月11日做了v3.1.0 → v3.1.1 → v3.1.2三个版本的迭代，同一天。

这种迭代密度在开源项目中极为罕见。它反映了几件事：

这种节奏在消费互联网时代见过（美团早期"一日三迭代"），但发生在开源AI工具上，是信号——这件事的需求是真实且迫切的。

Peekaboo的定位很特殊：它不是一个独立的AI Agent，而是所有AI Agent的"眼睛和手"。

这意味着： - Codex可以用Peekaboo看到开发者在做什么 - Claude Code可以用Peekaboo操作图形界面工具 - Cursor可以用Peekaboo感知更多的开发上下文

Peekaboo让Agent之间的界限变模糊了——大家都用同一套"感知-操作"接口，比拼的不是能力而是编排逻辑。

Peekaboo解决的是云端和本地Agent都面临的问题。但本地Agent有一个天然优势：

macOS专属目前是限制，但核心逻辑可以迁移。如果Peekaboo的思路扩展到跨平台，一台能"看得到屏幕、点得了按钮"的铠盒设备，价值会翻倍。

一句话总结：Peekaboo v3补上了AI Agent最大的一块拼图——感官能力。一日三迭代的节奏说明这个需求真实且紧迫。AI Agent从"后台苦工"向"桌面土著"的进化，刚刚开始。

OpenClaw专区追踪社区最新动态。关注我们，见证Agent能力的每一次突破。