news 2026/5/1 7:41:29

Playwright 数据提取和验证

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Playwright 数据提取和验证

Playwright 数据提取和验证(2025 年最新版)

数据提取(Extraction)和验证(Assertion)是 Playwright 在自动化测试和爬虫场景中最核心的部分。Playwright 提供了强大且可靠的 Locator APIWeb-First 断言,能自动等待元素就绪,确保测试稳定。下面以Node.js/TypeScript(Playwright Test)为主,附 Python 示例。

1.数据提取(常见方式)
提取目标代码示例(推荐 Locator)说明
单个元素文本const text = await page.getByRole('heading', { name: '欢迎' }).textContent();返回字符串(null 如果不存在)
输入框值const value = await page.getByLabel('用户名').inputValue();适用于 input/textarea
属性值const href = await page.getByRole('link', { name: '详情' }).getAttribute('href');获取 href、src、data-* 等
多个元素文本const items = await page.getByRole('listitem').allTextContents();返回 string[] 数组
多个元素内文本const texts = await page.getByTestId('price').allInnerTexts();innerText(不含子元素隐藏文本)
元素计数const count = await page.getByRole('article').count();返回元素数量
表格数据提取```const
JSON/API 数据const response = await page.waitForResponse('**/api/users');
const json = await response.json();
拦截网络响应提取数据
2.验证(断言)——Playwright 最强大特性

Playwright 的expectWeb-First 断言:会自动重试直到超时(默认 30s),极大减少 flaky 测试。

import{test,expect}from'@playwright/test';// 页面标题awaitexpect(page).toHaveTitle('Playwright - 首页');awaitexpect(page).toHaveTitle(/Playwright/);// 正则匹配// URLawaitexpect(page).toHaveURL('https://playwright.dev/');awaitexpect(page).toHaveURL(/docs/);// 元素可见/隐藏awaitexpect(page.getByText('加载成功')).toBeVisible();awaitexpect(page.getByText('加载中')).toBeHidden();// 元素文本awaitexpect(page.getByRole('heading')).toHaveText('欢迎使用');awaitexpect(page.getByTestId('status')).toContainText('成功');// 包含// 元素属性awaitexpect(page.getByRole('link')).toHaveAttribute('href','/docs');awaitexpect(page.getByRole('img')).toHaveAttribute('src',/logo/);// 输入框值awaitexpect(page.getByLabel('搜索')).toHaveValue('Playwright');// 元素数量awaitexpect(page.getByRole('listitem')).toHaveCount(5);// Checkbox/Radio 状态awaitexpect(page.getByRole('checkbox')).toBeChecked();awaitexpect(page.getByRole('radio',{name:'男'})).toBeChecked();// 元素启用/禁用awaitexpect(page.getByRole('button')).toBeEnabled();awaitexpect(page.getByRole('button')).toBeDisabled();
3.高级验证技巧
// 软断言(不立即失败,继续执行)expect.soft(page.getByText('错误提示')).toBeHidden();// 自定义超时awaitexpect(page.getByText('加载完成'),{timeout:10000}).toBeVisible();// 轮询断言(复杂条件)awaitexpect(async()=>{constcount=awaitpage.getByRole('listitem').count();expect(count).toBeGreaterThan(0);}).toPass({timeout:15000});// 截图断言(视觉回归)awaitexpect(page).toHaveScreenshot('homepage.png',{maxDiffPixels:100});// 全页面截图比较(像素级)awaitexpect(page).toHaveScreenshot({fullPage:true});
4.实战示例:提取并验证搜索结果
test('百度搜索 Playwright 并验证结果',async({page})=>{awaitpage.goto('https://www.baidu.com');awaitpage.getByLabel('搜索输入框').fill('Playwright');awaitpage.getByRole('button',{name:'百度一下'}).click();// 等待结果加载awaitpage.waitForLoadState('networkidle');// 提取第一个结果标题constfirstTitle=awaitpage.getByRole('heading').first().textContent();console.log('第一个结果标题:',firstTitle);// 验证结果包含关键词awaitexpect(page.getByRole('heading').first()).toContainText('Playwright');awaitexpect(page.getByRole('heading')).toHaveCount(10);// 通常一页 10 条// 提取所有结果链接constlinks=awaitpage.getByRole('link',{name:/Playwright/}).all();console.log(`找到${links.length}个相关链接`);});
5.Python 版提取与验证示例
fromplaywright.sync_apiimportsync_playwright,expectwithsync_playwright()asp:browser=p.chromium.launch(headless=False)page=browser.new_page()page.goto("https://playwright.dev")# 提取title=page.title()heading=page.get_by_role("heading",name="Fast and reliable").text_content()print(f"标题:{title}, 副标题:{heading}")# 验证expect(page).to_have_title("Playwright")expect(page.get_by_role("link",name="Get started")).to_be_visible()expect(page.get_by_text("Playwright is a")).to_contain_text("reliable")browser.close()
最佳实践总结
  • 提取:优先用getByRole+textContent()/inputValue()
  • 验证:全部使用expect(),让 Playwright 自动重试。
  • 测试专用属性:在被测应用中添加data-testid="xxx",最稳定。
  • 调试:失败时自动生成 trace(截图 + 视频 + 网络日志),用npx playwright show-trace查看。

掌握这些,你就能轻松实现可靠的 E2E 测试和数据爬取!下一步建议:写一个完整的登录 + 列表页数据提取 + 验证的测试用例。

需要具体场景(如表格提取、分页加载、API 数据验证)的完整代码,随时告诉我!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/24 22:29:14

LangFlow Flyweight享元模式节省内存开销

LangFlow 中的享元模式:如何用设计智慧降低内存开销 在构建AI工作流的今天,开发者面对的不再是简单的函数调用,而是一张张由提示词、模型、检索器和记忆模块交织而成的复杂网络。LangChain 让这一切成为可能,但直接编码实现这些流…

作者头像 李华
网站建设 2026/5/1 6:29:09

SLAM的中的可观和现代控制理论里面的可观一样吗?

问题描述:SLAM的中的可观和现代控制理论里面的可观一样吗?问题解答:四、你论文里看到的“退化”,翻译成控制语言就是:SLAM 术语控制理论术语退化(degeneration)不可观 / 部分不可观几何退化输出…

作者头像 李华
网站建设 2026/5/1 5:30:34

LangFlow Cloudflare Workers集成实验

LangFlow 与 Cloudflare Workers 集成实践:低代码 AI 工作流的边缘部署新范式 在 AI 应用开发节奏日益加快的今天,一个核心矛盾愈发突出:大模型能力虽强,但将其快速、稳定地落地为可用产品仍面临重重阻碍。传统方式下,…

作者头像 李华
网站建设 2026/5/1 7:37:25

Open-AutoGLM实战:从0到1搭建高精度访问行为预警系统(附代码模板)

第一章:Open-AutoGLM 访问行为异常预警系统概述Open-AutoGLM 是一个基于大语言模型与自动化推理引擎构建的访问行为异常检测系统,旨在实时监控用户请求模式,识别潜在的安全威胁或非正常操作行为。该系统融合了自然语言理解、行为建模与动态阈…

作者头像 李华
网站建设 2026/5/1 6:29:57

C++调试宏与断言

1. 调试宏 __FUNCTION__:函数名__TIME__:文件运行的时间(注意:是文件运行时间,而不是运行该行的时间)__LINE__:所在行数__FILE__:文件的名字__DATA__:日期 注意&#xff…

作者头像 李华
网站建设 2026/5/1 7:36:50

科研起航新利器:书匠策AI开题报告功能,为学术梦想筑牢根基

在科研的漫漫征途中,开题报告宛如一座明亮的灯塔,为我们照亮前行的方向,指引着我们精准驶向学术的彼岸。它不仅是开启研究项目的关键钥匙,更是展现研究者学术素养与研究能力的重要窗口。然而,撰写一份高质量的开题报告…

作者头像 李华