Skip to content

Agent Browser

一、基本信息

  • 安装名agent-browser
  • 仓库来源GitHub

二、功能简介

Agent Browser 用于让 WorkBuddy 直接进入网页并执行浏览器级操作,例如打开页面、滚动、点击、展开内容、截图和读取网页信息。对于必须交互后才能看到内容的页面,这个 Skill 能显著提升可访问性。

三、适用场景

  • 需要滚动、点击或展开后才能读取内容的网页
  • 需要自动截图指定页面
  • 需要检查按钮、表单或页面结构
  • 需要进入网站后抓取指定信息

四、推荐使用方式

直接描述目标页面、需要执行的操作和最终输出结果即可。

示例指令

请打开这个网页,完整阅读需要展开和滚动后才能看到的内容,整理成结构化摘要,并为关键页面截图留档。

五、效果示意

可以看到,WorkBuddy 会模拟真实浏览行为,按步骤读取页面内容。

最终可输出结构化总结或整理后的文档结果。

六、使用建议

  • 先说明目标页面:尽量提供明确链接与目标动作。
  • 指定输出形式:可要求输出摘要、表格、截图或操作记录。
  • 适合处理动态网页:尤其适合普通搜索难以完整获取内容的场景。