引言:你还在跟XPath死磕吗?
凌晨两点,测试群里又炸了——“首页重构了,130条用例全部报红,class名全变了”。这种场景对于做Web自动化的开发者来说,应该再熟悉不过。CSS选择器、XPath写了一堆,前端稍微改个DOM结构,脚本就得跟着改,维护成本比写脚本本身还高。
根据一份2025年10月发布的浏览器自动化工具深度分析报告,Playwright正在取代Selenium成为现代化测试首选,性能提升20%-80%;而更值得关注的是,新一代AI工具通过计算机视觉结合大语言模型,实现了85%以上的操作准确率,且无需维护脆弱的选择器。传统的“定位器驱动”模式正在被一种全新的范式取代——自然语言驱动。
今天要介绍的主角就是Midscene.js,一个由字节跳动Web Infra团队开源的AI驱动UI自动化框架。它的核心理念极其朴素:用自然语言描述操作意图,由AI模型理解页面内容并执行相应操作。你不用再写document.querySelector(‘.btn-primary’),直接说“点击那个蓝色的登录按钮”,AI自己会找到它在哪。
截至2025年12月v1.0发布时,Midscene已经在GitHub斩获11k Star、Trending榜第二名,在互联网、金融、政企、汽车等大量应用场景完成落地。这篇文章将带你从零开始,5分钟内跑通第一个自然语言驱动的Web自动化脚本,并深入探讨这个工具背后的技术原理、竞品对比和落地实践。