news 2026/5/19 11:11:20

如何抓取亚马逊数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何抓取亚马逊数据

本文将带你学习如何抓取亚马逊商品数据,并构建可自动运行的数据采集流程,为价格分析与业务决策提供可靠支持。


开始之前,请确保已安装 Python 和一些关键库(Requests、pandas、BeautifulSoup、Playwright)。具备网页抓取和 HTML 的基础知识会有所帮助。

必备基础

Python:

请安装 Python 3.7.9 或更高版本。如果您是 Python 新手,请参阅 Python 网页抓取指南。

项目设置:

mkdir scraping-amazon-python && cd scraping-amazon-python

所需库:

Requests—— 处理 HTTP 请求。

pandas—— 用于数据处理和分析。

BeautifulSoup (BS4)—— 解析 HTML 内容。

Playwright—— 自动化浏览器相关任务。

通过终端安装:

pip3 install beautifulsoup4 pip3 install requests pip3 install pandas pip3 install playwright playwright install

注意: playwright install 这对于安装必要的浏览器二进制文件至关重要。

浏览亚马逊的布局和数据组件

安装好必要的库之后,你需要熟悉一下亚马逊的网站结构。亚马逊的主页提供了一个用户友好的搜索栏,方便你浏览从电子产品到书籍等各种各样的商品。

输入搜索条件后,搜索结果将以列表形式显示,包括产品名称、价格、评分和其他相关信息。值得注意的是,这些搜索结果可以使用各种筛选条件进行排序,例如价格范围、产品类别和客户评价:

如果您需要更详细的搜索结果,可以使用页面底部的分页按钮。每页通常包含多个列表,方便您浏览更多产品。页面顶部的筛选器可帮助您根据自身需求优化搜索结果。

要深入了解亚马逊的 HTML 结构,请按照以下步骤操作:

  1. 访问亚马逊网站。
  2. 在搜索栏中输入您想要的产品,或从精选列表中选择一个类别。
  3. 右键单击产品并选择 “检查元素” ,打开浏览器的开发者工具。
  4. 查看 HTML 布局,确定要提取的数据的标签和属性。

抓取亚马逊产品

现在您已经熟悉了亚马逊的产品结构,在本节中,您将收集产品名称、评分、评分数量和价格等详细信息。

在项目目录中,创建一个名为`python`的新Python脚本 amazon_scraper.py ,并将以下代码添加到该脚本中:

import asyncio from playwright.async_api import async_playwright import pandas as pd async def scrape_amazon(): async with async_playwright() as pw: # Launch new browser browser = await pw.chromium.launch(headless=False) page = await browser.new_page() # Go to Amazon URL await page.goto('https://www.amazon.com/s?i=fashion&bbn=115958409011') # Extract information results = [] listings = await page.query_selector_all('div.a-section.a-spacing-small') for listing in listings: result = {} # Product name name_element = await listing.query_selector('h2.a-size-mini > a > span') result['product_name'] = await name_element.inner_text() if name_element else 'N/A' # Rating rating_element = await listing.query_selector('span[aria-label*="out of 5 stars"] > span.a-size-base') result['rating'] = (await rating_element.inner_text())[0:3]await rating_element.inner_text() if rating_element else 'N/A' # Number of reviews reviews_element = await listing.query_selector('span[aria-label*="stars"] + span > a > span') result['number_of_reviews'] = await reviews_element.inner_text() if reviews_element else 'N/A' # Price price_element = await listing.query_selector('span.a-price > span.a-offscreen') result['price'] = await price_element.inner_text() if price_element else 'N/A' if(result['product_name']=='N/A' and result['rating']=='N/A' and result['number_of_reviews']=='N/A' and result['price']=='N/A'): pass else: results.append(result) # Close browser await browser.close() return results # Run the scraper and save results to a CSV file results = asyncio.run(scrape_amazon()) df = pd.DataFrame(results) df.to_csv('amazon_products_listings.csv', index=False)

在这段代码中,您利用 Python 的异步功能和 Playwright 库,从特定的亚马逊时尚页面抓取产品列表 。启动一个新的浏览器实例并导航到目标亚马逊 URL 后,您将提取产品信息,例如产品名称、评分、评论数和价格。遍历页面上的每个列表后,您将过滤掉没有数据的列表(即 标记为“N/A”)。抓取结果随后保存到 Pandas DataFrame 中,并导出到名为 `.cvs amazon_products_listings.csv...

要运行脚本,请 python3 amazon_scraper.py 在终端或 shell 中执行。输出结果应如下所示:

product_name,rating,number_of_reviews,price Crocs Women's Kadee Ii Sandals,4.2,17.5K+,$29.99 Teva Women's W Flatform Universal Sandal,4.7,7K+,$58.80 "OOFOS OOriginal Sport Sandal - Lightweight Recovery Footwear - Reduces Stress on Feet, Joints & Back - Machine Washable - Hand-Painted Graphics",4.5,9.4K+,N/A "Crocs Women's Brooklyn Low Wedges, Platform Sandals",4.6,11.7K+,N/A Teva Women's Original Universal Sandal,4.7,18.7K+,$35.37 Reef Women's Water Vista Sandal,4.5,1.9K+,$59.95 Crocs Women's Brooklyn Platform Slides Sandal,4.2,376,N/A …output omitted…

请注意: 如果脚本首次运行失败,请尝试再次运行。

亚马逊拥有完善的反抓取措施,可能会阻止或拦截您的数据抓取尝试。

亚马逊高级数据抓取技巧

当你开始使用亚马逊进行数据抓取时,你会很快发现,这家以复杂精细的网页而闻名的电商巨头,其带来的挑战远非基本的抓取方法所能应对。不妨了解一些高级技巧,它们可以帮助你获得流畅高效的抓取体验:

处理分页

亚马逊会展示大量产品,通常会跨越多个页面。为了抓取所有数据,您的脚本必须能够流畅地浏览这些页面。一种常见的方法是锁定 产品列表底部的“下一页”click按钮。通过识别该按钮的唯一选择器,您可以编写脚本使其点击该按钮,从而跳转到下一页。但是,请确保您的爬虫程序在所有元素加载完毕后再继续执行操作。

绕过广告

亚马逊产品列表中经常会出现广告。这些广告的结构可能与普通产品略有不同,这可能会导致抓取过程出现问题。为了解决这个问题,你需要检测代表广告的元素或标签。例如,查找带有 `<advertisement>` 或 `<advertisement> Sponsored ` 等标签的条目Ad。一旦检测到这些条目,你可以指示脚本跳过它们,从而确保只收集真实的商品数据。

缓解阻塞

亚马逊对其内容高度重视,可能会屏蔽或暂时中止其认为是机器人操作或可疑的活动。因此,让你的爬虫程序尽可能地模仿人类行为至关重要。

为了避免被屏蔽,你需要使用类似 `tf.flash` 的函数在请求之间引入延迟或随机间隔 asyncio.sleep(random.uniform(1, 5))。这会让你的抓取行为看起来不那么机械化。此外,考虑轮换用户代理和 IP 地址以降低被检测到的风险。如果遇到验证码挑战,使用验证码破解服务也会有所帮助。

动态处理内容

亚马逊的部分内容,例如评论或问答部分,是动态加载的,基本的爬虫程序可能无法抓取到这些数据。你需要确保你的爬虫程序能够执行 JavaScript 并等待动态内容加载完毕。使用 Playwright 或 Selenium 等工具,你可以使用显式等待,确保在爬虫程序继续执行之前,特定元素已经加载完毕。

设置抓取限制

不幸的是,发送大量并发请求可能会导致 IP 地址被列入黑名单。为避免这种情况发生,您需要限制发送请求的速率。

设计脚本时,请确保不会对亚马逊的服务器造成过大压力。如前所述,在请求之间设置合理的延迟至关重要。

通过实施这些先进技术,您不仅可以提高在亚马逊上抓取数据的效率,还可以确保抓取程序的持久性,降低其被检测或屏蔽的几率。

结论

在实际规模化采集中,稳定性与成功率往往比“能否抓取”更重要。依托网络代理商提供的高质量代理资源,企业可以更稳定、合规地采集跨平台价格数据,为MAP监控、品牌保护和市场分析提供持续可靠的数据支持。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 14:02:19

微信小程序二维码生成全攻略:3行代码实现专业级营销工具

微信小程序二维码生成全攻略&#xff1a;3行代码实现专业级营销工具 【免费下载链接】weapp-qrcode Wechat miniapp generate qrcode image 项目地址: https://gitcode.com/gh_mirrors/wea/weapp-qrcode 还在为微信小程序中集成二维码功能而烦恼吗&#xff1f;传统二维码…

作者头像 李华
网站建设 2026/5/8 9:43:56

终极解决方案:用KeyboardChatterBlocker彻底修复键盘连击问题

还在为机械键盘的连击问题而烦恼吗&#xff1f;当你轻轻按下"H"键&#xff0c;屏幕上却出现了"theh"这样的重复字符&#xff0c;这种恼人的现象不仅影响打字效率&#xff0c;更让编程和文字工作变得异常困难。KeyboardChatterBlocker作为一款完全免费的键盘…

作者头像 李华
网站建设 2026/5/9 7:26:54

闲鱼商品监控系统技术实践:从部署到优化的完整指南

在二手交易平台的激烈竞争中&#xff0c;如何在海量商品信息中快速锁定目标商品&#xff0c;是每个用户面临的共同挑战。闲鱼自动化监控系统通过智能爬虫技术、实时数据筛选和消息推送机制&#xff0c;构建了一套完整的商品监控解决方案&#xff0c;让用户能够精准捕捉商机。 【…

作者头像 李华
网站建设 2026/5/19 0:41:58

3分钟解决Windows热键冲突:Hotkey Detective使用全攻略

3分钟解决Windows热键冲突&#xff1a;Hotkey Detective使用全攻略 【免费下载链接】hotkey-detective A small program for investigating stolen hotkeys under Windows 8 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾经按下熟悉的快捷键&…

作者头像 李华
网站建设 2026/4/14 20:27:20

BooruDatasetTagManager界面优化:从显示问题到操作效率的全面提升

BooruDatasetTagManager界面优化&#xff1a;从显示问题到操作效率的全面提升 【免费下载链接】BooruDatasetTagManager 项目地址: https://gitcode.com/gh_mirrors/bo/BooruDatasetTagManager 在图像数据集管理领域&#xff0c;界面优化与用户体验改进一直是技术团队关…

作者头像 李华
网站建设 2026/5/15 23:18:42

Windows热键冲突排查终极指南:3步定位问题根源

Windows热键冲突排查终极指南&#xff1a;3步定位问题根源 【免费下载链接】hotkey-detective A small program for investigating stolen hotkeys under Windows 8 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾精心设置的快捷键突然失灵&am…

作者头像 李华