news 2026/5/28 2:43:16

python爬虫4K高清美女壁纸

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
python爬虫4K高清美女壁纸

简介:

  1. 一次爬取20张图片,可以更改这段代码的数值,改变下载图片数量:if success_count >= 20:
  2. 图片存放到D:\pachong1,可以更改这段代码的值修改存放地址:SAVE_DIR = r"D:\pachong1"
  3. 需要安装对应的库,使用:pip install 库名来安装需要的库

代码:

""" AURA 壁纸爬虫 - 摄影美女专题 爬取 https://gallery.wallaura.cn/?t=摄影美女 上的图片 保存到 D:\pachong1,爬取20张 真图(跳过占位图<100KB) """ import os import time import json import hashlib import base64 import requests from Crypto.Cipher import AES from selenium import webdriver from selenium.webdriver.chrome.options import Options SAVE_DIR = r"D:\pachong1" os.makedirs(SAVE_DIR, exist_ok=True) def encrypt_md5(text): return hashlib.md5(text.encode()).hexdigest() def decrypt_aes(cipher_text, key): if not cipher_text or not key: return "" key = (key * 16)[-16:] md5_key = encrypt_md5(key) iv = md5_key[8:24] try: raw = bytes.fromhex(cipher_text) b64_data = base64.b64encode(raw).decode() except: return cipher_text try: cipher = AES.new(key.encode('utf-8'), AES.MODE_CBC, iv.encode('utf-8')) decrypted = cipher.decrypt(base64.b64decode(b64_data)) return decrypted.rstrip(b'\x00').decode('utf-8') except: return cipher_text def decrypt_url(img_url, provider): if not img_url or not provider: return "" parts = img_url.split("?") path_parts = parts[0].split("/") filename = path_parts[-1] name_parts = filename.split(".") if len(name_parts[0]) < 32: return img_url encrypted = name_parts[0][:32] remaining = name_parts[0][32:] decrypted = decrypt_aes(encrypted, provider) name_parts[0] = decrypted + remaining path_parts[-1] = ".".join(name_parts) parts[0] = "/".join(path_parts) return "?".join(parts) def try_download(img_url, save_path, index): """尝试下载,如果是占位图(<100KB)返回False""" headers_list = [ { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36", "Referer": "https://gallery.wallaura.cn/", }, { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36", }, ] for attempt, headers in enumerate(headers_list): try: resp = requests.get(img_url, headers=headers, timeout=30) if resp.status_code == 200: size_kb = len(resp.content) / 1024 if size_kb < 100: print(f" [占位图 {size_kb:.1f}KB] 跳过") return False with open(save_path, "wb") as f: f.write(resp.content) print(f" [OK] 第{index}张 ({size_kb:.1f} KB)") return True except Exception as e: print(f" 尝试{attempt+1}异常: {e}") time.sleep(0.5) return False def main(): print("=" * 60) print("AURA 壁纸爬虫 - 摄影美女专题 (只下真图)") print("=" * 60) chrome_options = Options() chrome_options.add_argument('--headless=new') chrome_options.add_argument('--disable-gpu') chrome_options.add_argument('--no-sandbox') chrome_options.add_argument('--window-size=1920,1080') chrome_options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36') driver = webdriver.Chrome(options=chrome_options) try: print("\n[1/2] 正在获取图片数据...") driver.get("https://gallery.wallaura.cn/?t=%E6%91%84%E5%BD%B1%E7%BE%8E%E5%A5%B3") time.sleep(6) data_json = driver.execute_script(""" if (typeof DATA_CACHE !== 'undefined' && DATA_CACHE.length > 0) { var items = []; for (var i = 0; i < DATA_CACHE.length; i++) { var item = DATA_CACHE[i]; if (!item.rawprovider || !item.rawid) continue; var imgurl = item.imgurl || item.thumburl || ''; if (!imgurl) continue; var decrypted = imgurl; try { decrypted = decryptUrl(imgurl, item.rawprovider); } catch(e) {} items.push({ provider: item.rawprovider, rawid: item.rawid, url: decrypted }); } return JSON.stringify(items); } return '[]'; """) items = json.loads(data_json) print(f"获取到 {len(items)} 张图片") if not items: print("没有获取到图片!") return print(f"\n[2/2] 开始下载,跳过占位图(<100KB)直到凑满20张...") success_count = 0 for i, item in enumerate(items): if success_count >= 20: break print(f"\n--- [{success_count+1}/20] 第{i+1}/{len(items)}张 ---") print(f" 来源: {item['provider']}, ID: {item['rawid']}") print(f" URL: {item['url'][:100]}...") url_path = item['url'].split("?")[0] ext = os.path.splitext(url_path)[1] or ".jpg" if len(ext) > 5: ext = ".jpg" file_name = f"aura_{item['provider']}_{item['rawid']}{ext}" save_path = os.path.join(SAVE_DIR, file_name) if try_download(item['url'], save_path, success_count + 1): success_count += 1 time.sleep(0.3) print("\n" + "=" * 60) print(f"完成!真图: {success_count}/20 张") print(f"保存路径: {SAVE_DIR}") print("=" * 60) finally: driver.quit() if __name__ == "__main__": main()

运行结果截图:


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/28 2:43:16

AI时代生日派对革命,ChatGPT创意方案全解析,92%用户30分钟内完成策划

更多请点击&#xff1a; https://kaifayun.com 第一章&#xff1a;AI时代生日派对策划范式迁移 传统生日派对策划依赖人工经验、电话邀约与纸质清单&#xff0c;而AI时代的范式迁移正重构这一流程——从需求感知、资源调度到实时反馈&#xff0c;全部由数据驱动的智能体协同完…

作者头像 李华
网站建设 2026/5/28 2:41:08

12 - 文件操作

12 - 文件操作跟文件打交道是写程序绕不开的事。读配置、写日志、处理数据… 这章把 Python 的文件操作讲清楚。读写文本文件 写文件 # 写入文件&#xff08;覆盖原有内容&#xff09; with open("hello.txt", "w", encoding"utf-8") as f:f.wri…

作者头像 李华
网站建设 2026/5/28 2:40:23

终极指南:如何在Obsidian中创建和嵌入专业Excel表格

终极指南&#xff1a;如何在Obsidian中创建和嵌入专业Excel表格 【免费下载链接】obsidian-excel 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-excel 还在为Obsidian中处理表格数据而烦恼吗&#xff1f;Obsidian Excel插件让你在笔记应用中直接创建、编辑和…

作者头像 李华
网站建设 2026/5/28 2:39:12

车规 EMC 设计全流程指南:从原理图到量产的实战避坑手册

摘要&#xff1a;车规级 EMC&#xff08;电磁兼容&#xff09;是汽车电子量产的核心门槛&#xff0c;直接决定产品的安全性与可靠性。不同于消费电子&#xff0c;车载场景面临宽温波动、高压抛负载、强电磁耦合等极端工况&#xff0c;80% 的 EMC 问题源于前端设计疏漏&#xff…

作者头像 李华