news 2026/6/15 13:07:09

Day 89:【99天精通Python】项目篇(二) - 电影推荐系统 (上) - 需求分析与数据探索

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Day 89:【99天精通Python】项目篇(二) - 电影推荐系统 (上) - 需求分析与数据探索

Day 89:【99天精通Python】项目篇(二) - 电影推荐系统 (上) - 需求分析与数据探索

前言

欢迎来到第89天!

我们将启动本系列最后一个,也是最有趣的大型项目——电影推荐系统
推荐系统是现代互联网产品的核心(淘宝的猜你喜欢、抖音的视频流)。我们将从零开始,搭建一个能根据用户历史评分,为他推荐可能喜欢的电影的系统。

我们将使用最经典的协同过滤 (Collaborative Filtering)算法。
它的核心思想是:“物以类聚,人以群分”

  1. 找到和你品味相似的用户。
  2. 把他们喜欢但你还没看过的电影推荐给你。

本节内容:

  • 项目目标与需求分析
  • 数据集介绍 (MovieLens)
  • 数据加载与探索性分析 (EDA)
  • 算法选型:基于用户的协同过滤 (User-Based CF)

一、项目目标

开发一个 API,输入一个user_id,返回为该用户推荐的 Top 10 电影列表。


二、数据集介绍 (MovieLens)

我们将使用 GroupLens 提供的公开数据集MovieLens。它包含几百万条"用户-电影-评分"的记录。
为了方便,我们使用ml-latest-small这个子集,包含 10 万条评分。

下载并解压后,我们主要关心两个文件:

  • movies.csv:movieId,title,genres
  • ratings.csv:userId,movieId,rating,timestamp

三、数据加载与探索 (EDA)

EDA 是数据分析的第一步,先看看数据长什么样。

importpandasaspd# 1. 加载数据movies=pd.read_csv("./ml-latest-small/movies.csv")ratings=pd.read_csv("./ml-latest-small/ratings.csv")print("--- 电影数据 ---")print(movies.head())print("\n--- 评分数据 ---")print(ratings.head())# 2. 合并数据# 用 merge 把两张表连起来,方便分析df=pd.merge(ratings,movies,on="movieId")print("\n--- 合并后数据 ---")print(df.head())# 3. 基础统计n_users=df['userId'].nunique()n_movies=df['movieId'].nunique()print(f"\n用户数:{n_users}, 电影数:{n_movies}")# 4. 看看热门电影 (按评分次数排序)movie_counts=df['title'].value_counts()print("\n--- 最热门的电影 Top 5 ---")print(movie_counts.head())# 5. 看看评分分布print("\n--- 评分分布 ---")print(df['rating'].describe())

四、算法原理:基于用户的协同过滤

假设我们要为用户 A 推荐电影。

  1. 找到相似用户
    • 遍历所有其他用户 (B, C, D…)
    • 计算 A 和每个用户之间的相似度。相似度的计算基于他们共同评分过的电影。
    • 相似度算法:余弦相似度 (Cosine Similarity)是最常用的。
  2. 筛选邻居
    • 选出和 A 最相似的 Top K 个用户(比如 K=20),他们是 A 的"邻居"。
  3. 生成推荐
    • 遍历邻居们看过且评分很高,但 A没看过的电影。
    • 对这些电影进行加权评分(相似度越高的邻居,他的推荐权重越大)。
    • 按最终得分排序,返回 Top N 个电影。

五、数据准备:用户-物品评分矩阵

为了计算相似度,我们需要一个"用户-电影"的评分矩阵。

  • 行:userId
  • 列:title
  • 值:rating

这个矩阵通常是稀疏的(大部分是 NaN,因为用户只看过一小部分电影)。

# 使用 pivot_table 创建评分矩阵movie_matrix=df.pivot_table(index='userId',columns='title',values='rating')print(movie_matrix.head())# title '71 (2014) 'Hell or High Water' (2016) ...# userId# 1 NaN NaN ...# 2 NaN NaN ...

六、计算用户相似度

Scikit-Learn 提供了cosine_similarity函数。

fromsklearn.metrics.pairwiseimportcosine_similarity# 缺失值用 0 填充 (代表没看过)user_item_matrix=movie_matrix.fillna(0)# 计算用户之间的相似度user_similarity=cosine_similarity(user_item_matrix)# 包装成 DataFrame,方便查看user_sim_df=pd.DataFrame(user_similarity,index=user_item_matrix.index,columns=user_item_matrix.index)print("\n--- 用户相似度矩阵 ---")print(user_sim_df.head())# userId 1 2 3 4 5# userId# 1 1.000000 0.027283 0.059709 0.194395 0.129080# 2 0.027283 1.000000 0.000000 0.000000 0.032118

七、小结

今天是项目的第一步:理解问题和准备数据

  1. 推荐系统的核心是"相似度"。
  2. 协同过滤分为基于用户 (User-CF) 和基于物品 (Item-CF)。
  3. Pandas是数据探索和预处理的核心工具,mergepivot_table非常关键。
  4. 用户-物品评分矩阵是算法的基础。

明天 (Day 90),我们将编写核心的推荐函数,并将其封装成一个 Flask API,完成整个项目!


八、课后作业

  1. 数据可视化:使用 Matplotlib 或 Seaborn,绘制电影评分次数的直方图,看看长尾效应有多严重。
  2. Item-CF:思考一下"基于物品的协同过滤"该怎么实现?(提示:转置评分矩阵,计算电影与电影之间的相似度)。
  3. 相似用户分析:编写代码,找出与userId=1最相似的 5 个用户。

系列导航

  • 上一篇:Day 88 - 实战篇二总结
  • 下一篇:Day 90 - 电影推荐系统 (下)(待更新)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 17:35:27

通义千问2.5-7B实战:智能写作助手开发

通义千问2.5-7B实战:智能写作助手开发 1. 引言 随着大语言模型在自然语言生成、代码理解与数学推理等领域的持续突破,基于预训练模型进行二次开发已成为构建垂直领域智能应用的核心路径。Qwen2.5 系列作为通义实验室最新发布的大型语言模型家族&#x…

作者头像 李华
网站建设 2026/6/6 19:50:34

Qwen3-Embedding-4B vs Snowflake-Arctic-embed:开源模型全面对比

Qwen3-Embedding-4B vs Snowflake-Arctic-embed:开源模型全面对比 1. 引言 在当前大模型驱动的语义理解与检索系统中,高质量的文本向量化模型成为构建知识库、搜索引擎和推荐系统的基石。随着多语言、长文本、高精度需求的增长,越来越多的开…

作者头像 李华
网站建设 2026/6/3 1:15:01

Qwen3-VL-2B-Instruct快速入门:三分钟完成本地部署

Qwen3-VL-2B-Instruct快速入门:三分钟完成本地部署 1. 引言 随着多模态人工智能技术的快速发展,视觉语言模型(Vision-Language Model, VLM)正逐步成为智能交互系统的核心组件。传统的纯文本大模型在面对图像理解、图文推理等任务…

作者头像 李华
网站建设 2026/6/9 23:43:55

通义千问3-Embedding-4B教程:模型服务网格化

通义千问3-Embedding-4B教程:模型服务网格化 1. 引言:Qwen3-Embedding-4B——面向多语言长文本的高效向量化引擎 随着大模型应用在知识库、语义搜索、跨语言检索等场景中的深入,高质量文本向量的需求日益增长。传统的轻量级嵌入模型&#x…

作者头像 李华
网站建设 2026/5/7 0:10:06

Manim数学动画终极指南:从零开始掌握动态可视化

Manim数学动画终极指南:从零开始掌握动态可视化 【免费下载链接】manim A community-maintained Python framework for creating mathematical animations. 项目地址: https://gitcode.com/GitHub_Trending/man/manim 还在为抽象的数学概念难以直观展示而困…

作者头像 李华
网站建设 2026/6/10 16:06:28

如何用FunASR实现高精度中文语音识别?科哥镜像一键启动

如何用FunASR实现高精度中文语音识别?科哥镜像一键启动 1. 引言 在当前AI技术快速发展的背景下,语音识别作为人机交互的重要入口,正被广泛应用于智能客服、会议记录、字幕生成、语音输入等场景。然而,部署一个稳定、高精度的中文…

作者头像 李华