python爬取时怎么获取头部header-编程实验室

在 Python 爬虫开发中，HTTP Header（请求头 / 响应头）是核心环节：请求头（Request Header）用于模拟浏览器身份、传递请求参数，避免被反爬；响应头（Response Header）包含服务器返回的状态、编码、Cookie 等关键信息。以下分场景详细讲解如何构造请求头、从浏览器获取真实请求头、提取响应头，并结合requests、Selenium等常用库给出示例。

一、核心概念：请求头 vs 响应头

类型	作用	常见字段
请求头	客户端向服务器发送请求时携带的信息，用于标识请求身份、偏好等	`User-Agent`、`Referer`、`Cookie`、`Accept`、`Accept-Encoding`、`Origin`
响应头	服务器向客户端返回响应时携带的信息，包含响应状态、数据格式、Cookie 等	`Set-Cookie`、`Content-Type`、`Content-Encoding`、`Server`、`Date`

二、场景 1：手动构造请求头（Request Header）

爬取普通网页时，最常用的方式是手动构造请求头，核心是设置User-Agent（模拟浏览器），复杂场景需补充Cookie、Referer等。

1. 基础示例（使用`requests`库）

import requests # 1. 构造请求头字典（核心字段按需添加） headers = { # 必选：模拟浏览器标识（关键反爬字段） "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36", # 可选：表示请求来源页面（部分网站会验证） "Referer": "https://www.jd.com/", # 可选：接受的数据格式 "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", # 可选：接受的编码格式 "Accept-Encoding": "gzip, deflate, br", # 可选：语言偏好 "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8", # 可选：Cookie（需从浏览器获取，用于保持登录状态） "Cookie": "xxx=xxx; yyy=yyy;" } # 2. 发送请求时携带请求头 url = "https://www.example.com" response = requests.get(url, headers=headers) print("请求是否成功：", response.status_code) # 200表示成功

2. 常用请求头字段说明

字段名	必选	作用
`User-Agent`	是	标识客户端类型（浏览器 / 爬虫），缺少或异常会被反爬拦截
`Cookie`	否	携带用户登录状态、会话信息，爬取需要登录的页面时必须
`Referer`	否	告诉服务器请求的来源，部分网站会验证该字段防止跨站请求
`Origin`	否	跨域请求时携带，标识请求的源域名
`Accept`	否	告诉服务器客户端能接受的响应数据格式

三、场景 2：从浏览器开发者工具获取真实请求头

手动构造的请求头可能不够 “真实”，尤其是面对反爬严格的网站（如京东、淘宝），直接复制浏览器的真实请求头是最可靠的方式。

操作步骤（以 Chrome 浏览器为例）

打开目标网页，按F12或右键→检查，打开开发者工具；
切换到Network（网络）标签，刷新页面（确保捕获所有请求）；
在请求列表中找到目标请求（通常是第一个Doc类型的请求，或 API 接口请求）；
点击该请求，在右侧Headers（标头）中找到Request Headers（请求头）；
复制全部请求头（可右键→Copy→Copy as cURL或Copy headers），转换为 Python 字典。

四、场景 3：获取服务器返回的响应头（Response Header）

发送请求后，可通过requests库的响应对象直接提取响应头，用于获取 Cookie、响应编码、服务器信息等。

五、场景 4：用 Selenium 获取浏览器的真实请求头 / 响应头

对于动态渲染的页面（如 JS 加载的内容），Selenium可模拟真实浏览器的请求，通过抓包或浏览器日志获取请求头 / 响应头。

方法 1：直接获取 Selenium 的请求头（通过`webdriver`）

from selenium import webdriver from selenium.webdriver.chrome.options import Options # 配置Chrome选项 chrome_options = Options() chrome_options.add_argument("--headless=new") # 无头模式（可选） driver = webdriver.Chrome(options=chrome_options) # 访问目标页面 driver.get("https://www.jd.com") # 执行JS获取浏览器的User-Agent（间接获取请求头核心字段） user_agent = driver.execute_script("return navigator.userAgent;") print("Selenium的User-Agent：", user_agent) # 关闭浏览器 driver.quit()

方法 2：通过`mitmproxy`/`Charles`抓包获取 Selenium 的请求头

如果需要完整的请求头 / 响应头，可使用抓包工具（如mitmproxy、Charles、Fiddler）拦截 Selenium 的请求，步骤如下：

启动抓包工具，设置代理端口（如8080）；
Selenium 配置代理，指向抓包工具；
访问目标页面，抓包工具会捕获所有请求的头信息。

六、实用技巧与注意事项

总结

获取和使用 Header 的核心是模拟真实浏览器的请求行为：

简单场景：手动构造User-Agent等核心字段；

复杂场景：从浏览器复制真实请求头，或用抓包工具获取；

响应头：通过requests的response.headers直接提取。

结合反爬策略（如随机User-Agent、更新 Cookie），可大幅提升爬虫的稳定性和成功率。

请求头的大小写：requests库会自动处理请求头的大小写（如user-agent和User-Agent等效），无需严格区分；
Cookie 的时效性：Cookie 通常有过期时间，爬取需要登录的页面时，需定期更新 Cookie；
User-Agent 池：为避免被识别为爬虫，可维护一个User-Agent池，每次请求随机选择一个；
避免过度携带字段：并非所有请求头字段都需要，核心字段（User-Agent）满足后，多数网站可正常访问；
遵守 robots 协议：爬取前查看网站的robots.txt（如https://www.jd.com/robots.txt），避免爬取禁止的内容。

python爬取时怎么获取头部header

一、核心概念：请求头 vs 响应头

二、场景 1：手动构造请求头（Request Header）

1. 基础示例（使用`requests`库）

2. 常用请求头字段说明

三、场景 2：从浏览器开发者工具获取真实请求头

操作步骤（以 Chrome 浏览器为例）

四、场景 3：获取服务器返回的响应头（Response Header）

五、场景 4：用 Selenium 获取浏览器的真实请求头 / 响应头

方法 1：直接获取 Selenium 的请求头（通过`webdriver`）

方法 2：通过`mitmproxy`/`Charles`抓包获取 Selenium 的请求头

六、实用技巧与注意事项

总结

【Open-AutoGLM异常监控配置指南】：手把手教你构建企业级访问风控体系

Open-AutoGLM隐私审计实施路径（从策略配置到实时监控的完整流程）

Playwright 简介

深度解析 Gemini 3 Pro：原生多模态与 200W 超长上下文，开启“智能体开发”新纪元

SpringBoot+Vue +线上教育培训办公系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

MATLAB优化VRPTW规划问题：基于蚁群算法的解决方案

一、核心概念：请求头 vs 响应头

二、场景 1：手动构造请求头（Request Header）

1. 基础示例（使用requests库）

2. 常用请求头字段说明

三、场景 2：从浏览器开发者工具获取真实请求头

操作步骤（以 Chrome 浏览器为例）

四、场景 3：获取服务器返回的响应头（Response Header）

五、场景 4：用 Selenium 获取浏览器的真实请求头 / 响应头

方法 1：直接获取 Selenium 的请求头（通过webdriver）

方法 2：通过mitmproxy/Charles抓包获取 Selenium 的请求头

六、实用技巧与注意事项

总结

【Open-AutoGLM异常监控配置指南】：手把手教你构建企业级访问风控体系

Open-AutoGLM隐私审计实施路径（从策略配置到实时监控的完整流程）

Playwright 简介

深度解析 Gemini 3 Pro：原生多模态与 200W 超长上下文，开启“智能体开发”新纪元

SpringBoot+Vue +线上教育培训办公系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

MATLAB优化VRPTW规划问题：基于蚁群算法的解决方案

1. 基础示例（使用`requests`库）

方法 1：直接获取 Selenium 的请求头（通过`webdriver`）

方法 2：通过`mitmproxy`/`Charles`抓包获取 Selenium 的请求头