百 AI 实战百科

浏览器自动化

Skills/工作流 · 自动化工具

一句话：让程序或AI自动打开网页、点击按钮、填写表单、截图和提取页面信息。

它是什么

浏览器自动化是用代码控制真实或无头浏览器执行网页操作。它常用于自动测试、网页数据采集、后台批量操作、截图验收和AI代理上网执行任务。

适合干什么

需要重复操作网页后台的人
做网页自动测试的开发者
需要让AI检查页面是否正常的人
想把表单录入、截图、数据提取自动化的人

不适合干什么

违反网站规则的大规模抓取
需要绕过验证码、风控或登录限制的行为
页面经常变化且没有维护能力的流程
涉及高风险交易但无人工确认的操作

普通人怎么用

先把人工操作步骤写下来
确定每一步要点击或填写的元素
选择Playwright这类工具录制或编写脚本
先在测试账号运行
加截图和失败重试，方便排错

进阶用户怎么用

用稳定选择器代替容易变化的文本
把登录态、超时、重试和截图统一封装
让AI根据截图判断页面是否符合预期
对关键操作增加人工确认或沙盒环境

常见误区

用坐标点击，窗口一变就失效
没有等待页面加载完成
没有处理弹窗、验证码和登录过期
把自动化用于违反服务条款的采集

和相似工具的区别

浏览器自动化 vs API自动化：浏览器自动化模拟人在页面操作，API自动化直接调用接口，后者通常更稳定但需要接口权限。
浏览器自动化 vs 爬虫：爬虫偏批量获取数据，浏览器自动化还可以点击、填写、截图和跑测试流程。

入门步骤

写人工流程
选工具
定位元素
编脚本
测试账号运行
加截图
加错误处理

推荐工具（第三方）

Playwright、Puppeteer、Selenium、Chrome DevTools、Codex、Claude Code