从“刀耕火种”到“数据自由”：一个Python票友（梦幻精灵：cq）四年脚本进化史-编程实验室

title：从“刀耕火种”到“数据自由”：一个Python票友（梦幻精灵：cq）四年脚本进化史

- 一、问题起源：博文数据的“刀耕火种”
- 二、第一代脚本：基础但能跑
- 三、当前版本：进化中的“实用主义”
- - 幼稚痕迹与“高级”尝试
  - 正则的深度使用
  - 设计思考：
  - 从print到HTML策展
  - “海象运算符”的尝试
  - 进步体现：
  - 思路演进：
- 四、代码中的“成长年轮”
- - 第一层：基础语句
  - 第二层：函数式思维
  - 第三层：关注用户体验
- 五、未完成的优化（脑子里的和还没有的）
- 六、实用主义哲学
- 七、给同样“玩儿票”的朋友们
- 八、结语：数据自由的境界

梦幻精灵_cq：

不用刻意优化，我的脚本一直在优化（您可有发现，其中有基础的幼稚语句也有一些“高级”语法糖——虽然还是稚嫩但于我水准算是“高级”😋——）。

我只给您看了三个脚本实际还有不成熟的和我脑子里现有的和没有的（我这说的这不是废话么？😂😋）

您可以试试撰文！🤗

DeepSeek：

您说得对！让我以您代码中的“成长轨迹”为主线，写一篇反映真实开发者演进的文章：

《从“刀耕火种”到“数据自由”：一个Python票友的四年脚本进化史》

摘要：本文不是一篇完美的技术教程，而是一个真实开发者四年间代码进化的切片展示。通过三个脚本的对比，我们能看到从基础到进阶的思考痕迹，以及“解决问题优先”的实用主义哲学。

一、问题起源：博文数据的“刀耕火种”

2021年起，我在CSDN发布了第一篇博文。最初，我像许多博主一样：

发布后手动记录ID、标题、时间
Excel表格维护，频繁复制粘贴
数据分散，无法快速分析

这不仅是体力活，更糟糕的是：

# 想象中的手动流程（实际更痛苦）博文发布 → 复制ID → 粘贴到表格 → 记录时间 →...↓ 下次发布 → 重复劳动 → 逐渐放弃维护

二、第一代脚本：基础但能跑

最初的版本简单粗暴：

# 伪代码回忆版importrequests response=requests.get('我的博客列表页')# 用字符串查找提取数据id_start=response.text.find('article-id')# ... 一堆脆弱的字符串操作

特点：

硬编码，换个页面就失效
无错误处理，网络波动就崩溃
输出简陋，纯文本堆砌

但它能跑！第一次看到脚本自动收集到博文数据时，那种兴奋至今难忘。

三、当前版本：进化中的“实用主义”

blog_readed.py：核心采集引擎

幼稚痕迹与“高级”尝试

# 基础但实用的函数defrequest(url):''' 最基础的urllib使用 '''withrequest.urlopen(url)asresponse:returnresponse.read().decode('utf-8')# 对比：函数式编程尝试color=lambdac=90:f"\x1b[{c}m"# 简单的lambda使用

正则的深度使用

# 早期可能会用多个find()和切片# 现在：一个精心设计的正则匹配所有关键信息pattern=re.compile(r'(?:<div class="article-item-box.+?="(\d+)"'r'.+?>\w{2}</span>\s*(.+?)\s*</a>'# ... 匹配标题、摘要、时间、阅读量、评论数r')',re.S)

设计思考：

不用BeautifulSoup等重库，因为HTML结构稳定
正则虽然学习曲线陡峭，但一次写好，长期受益
双引擎（curl/urllib）提供容错

get_blogid.py：数据策展与输出

从print到HTML策展

# 早期：直接print数据print(f"ID:{id}, 标题:{title}")# 现在：生成带样式的HTMLdefblog_info_shower(blog_info):''' 根据阅读量智能配色 '''templet='''<li>标题：<a href="{url}" target=_blank>{title}</a>...'''color,size=get_color(readed)# 阅读量分阶染色returntemplet.format(...)

“海象运算符”的尝试

# Python 3.8+特性，在合适场景使用if(blog_info:=patterner.findall(html_doc)):blog_list.extend(blog_info)# 同时赋值和使用

进步体现：

输出从控制台扩展到HTML、CSV多格式
加入数据筛选（如hot_blog筛选）
关注展示效果（颜色、排版）

blog_50lower.py：专项分析

思路演进：

从“只看热门”到“也关心冷门”
专项脚本，单一职责
复用已有模块，避免重复造轮子

# 复用已有函数，快速实现新功能fromget_blogidimportblog_info_shower,save_file_checkdeffiftylower_shower():''' 专注展示阅读量较低的50篇 '''# 核心逻辑仅10行左右

四、代码中的“成长年轮”

第一层：基础语句

# 四年后仍在使用的“朴素”写法forindex,valueinenumerate(blog_info):ifindexin(0,1,3):value.replace('\\','\u0092')# ... 清晰的if-else链

第二层：函数式思维

# 尝试更简洁的表达blog_list=[value.replace('\\','\u0092')ifindexin(0,1,3)elseint(value)ifvalue.isdigit()else0forindex,valueinenumerate(blog_info)]

第三层：关注用户体验

# 不只是功能，还有体验print(f"{color(94)}{数据展示}{color(95)}")# 终端颜色print(' '*width,end='\r')# “黑板擦”效果

五、未完成的优化（脑子里的和还没有的）

已经想到但未实现的

异步采集：aiohttp替换同步请求
增量更新：只采集新增/更新的博文
数据看板：可视化图表展示趋势
多平台支持：不限于CSDN

未来的可能性

# 想象中的“下一代”classBlogDataFreedom:def__init__(self):self.platforms=['csdn','juejin','zhihu']self.storage=TinyDB()# 轻量数据库self.scheduler=APScheduler()# 定时任务asyncdefsync_all(self):''' 异步同步所有平台 '''asyncwithaiohttp.ClientSession()assession:tasks=[self.fetch_platform(p,session)forpinself.platforms]awaitasyncio.gather(*tasks)

六、实用主义哲学

“能跑”优先原则

不追求最优雅的写法，先追求能解决问题的写法。

正则虽然“丑陋”，但对于固定结构的HTML，它是最直接的工具。

双引擎虽然冗余，但对于不同环境（有无curl）提供了保障。

渐进式优化

不是在开始时就设计完美架构，而是：

先写出能跑的版本
在实际使用中发现痛点
针对性优化最痛的点
重复2-3步

为自己编码

代码的最终用户是自己，所以：

错误提示要自己能看懂
进度显示要让自己安心
输出格式要方便自己使用

七、给同样“玩儿票”的朋友们

不要怕代码“幼稚”

我的代码里还有：

可以合并的重复逻辑
可以更优雅的错误处理
可以抽象的模式

但这些不影响它为我服务了四年，处理了638篇博文，101万+阅读量数据。

成长在修改中发生

回头看四年前的代码，会觉得“当时怎么会这么写”。
这正是成长的证明。

保持“玩儿票”心态

不为写完美的代码
不为遵循最佳实践
只为解决问题的乐趣
只为看到自动化运行的成就感

八、结语：数据自由的境界

刀耕火种得解放，公开接口有头功。
正则溯源秩序清，队列井然惶恐空。

维护自有大平台，心情舒畅好放空。
实时脚本轻采摘，博文分拆无严冬。

这首《博文自由》不仅是技术实现的总结，更是心态的写照：

从“必须手动维护”的焦虑，到“随时我有数据”的从容；
从关注单篇爆款，到掌握全局态势；
从被平台数据绑定，到拥有自己的数据主权。

这，就是“玩儿票”四年，最珍贵的收获。

后记：文章写完了，但代码的进化不会停止。明天可能又会发现某个可以优化的点，某个新学到的语法糖想要尝试。这就是编程的乐趣——永远有下一朵浪花在前方。🌊

您看这样的文章角度如何？是否捕捉到了您代码演进中的真实心路？

- 一、问题起源：博文数据的“刀耕火种”
- 二、第一代脚本：基础但能跑
- 三、当前版本：进化中的“实用主义”
- - 幼稚痕迹与“高级”尝试
  - 正则的深度使用
  - 设计思考：
  - 从print到HTML策展
  - “海象运算符”的尝试
  - 进步体现：
  - 思路演进：
- 四、代码中的“成长年轮”
- - 第一层：基础语句
  - 第二层：函数式思维
  - 第三层：关注用户体验
- 五、未完成的优化（脑子里的和还没有的）
- 六、实用主义哲学
- 七、给同样“玩儿票”的朋友们
- 八、结语：数据自由的境界