Day 89：【99天精通Python】项目篇(二) - 电影推荐系统 (上)

Day 89：【99天精通Python】项目篇(二) - 电影推荐系统 (上) - 需求分析与数据探索

前言

欢迎来到第89天！

我们将启动本系列最后一个，也是最有趣的大型项目——电影推荐系统。
推荐系统是现代互联网产品的核心（淘宝的猜你喜欢、抖音的视频流）。我们将从零开始，搭建一个能根据用户历史评分，为他推荐可能喜欢的电影的系统。

我们将使用最经典的协同过滤 (Collaborative Filtering)算法。
它的核心思想是：“物以类聚，人以群分”。

找到和你品味相似的用户。
把他们喜欢但你还没看过的电影推荐给你。

本节内容：

项目目标与需求分析
数据集介绍 (MovieLens)
数据加载与探索性分析 (EDA)
算法选型：基于用户的协同过滤 (User-Based CF)

一、项目目标

开发一个 API，输入一个user_id，返回为该用户推荐的 Top 10 电影列表。

二、数据集介绍 (MovieLens)

我们将使用 GroupLens 提供的公开数据集MovieLens。它包含几百万条"用户-电影-评分"的记录。
为了方便，我们使用ml-latest-small这个子集，包含 10 万条评分。

下载并解压后，我们主要关心两个文件：

movies.csv:movieId,title,genres
ratings.csv:userId,movieId,rating,timestamp

三、数据加载与探索 (EDA)

EDA 是数据分析的第一步，先看看数据长什么样。

importpandasaspd# 1. 加载数据movies=pd.read_csv("./ml-latest-small/movies.csv")ratings=pd.read_csv("./ml-latest-small/ratings.csv")print("--- 电影数据 ---")print(movies.head())print("\n--- 评分数据 ---")print(ratings.head())# 2. 合并数据# 用 merge 把两张表连起来，方便分析df=pd.merge(ratings,movies,on="movieId")print("\n--- 合并后数据 ---")print(df.head())# 3. 基础统计n_users=df['userId'].nunique()n_movies=df['movieId'].nunique()print(f"\n用户数:{n_users}, 电影数:{n_movies}")# 4. 看看热门电影 (按评分次数排序)movie_counts=df['title'].value_counts()print("\n--- 最热门的电影 Top 5 ---")print(movie_counts.head())# 5. 看看评分分布print("\n--- 评分分布 ---")print(df['rating'].describe())

四、算法原理：基于用户的协同过滤

假设我们要为用户 A 推荐电影。

找到相似用户：
- 遍历所有其他用户 (B, C, D…)
- 计算 A 和每个用户之间的相似度。相似度的计算基于他们共同评分过的电影。
- 相似度算法：余弦相似度 (Cosine Similarity)是最常用的。
筛选邻居：
- 选出和 A 最相似的 Top K 个用户（比如 K=20），他们是 A 的"邻居"。
生成推荐：
- 遍历邻居们看过且评分很高，但 A没看过的电影。
- 对这些电影进行加权评分（相似度越高的邻居，他的推荐权重越大）。
- 按最终得分排序，返回 Top N 个电影。

五、数据准备：用户-物品评分矩阵

为了计算相似度，我们需要一个"用户-电影"的评分矩阵。

行：userId
列：title
值：rating

这个矩阵通常是稀疏的（大部分是 NaN，因为用户只看过一小部分电影）。

# 使用 pivot_table 创建评分矩阵movie_matrix=df.pivot_table(index='userId',columns='title',values='rating')print(movie_matrix.head())# title '71 (2014) 'Hell or High Water' (2016) ...# userId# 1 NaN NaN ...# 2 NaN NaN ...

六、计算用户相似度

Scikit-Learn 提供了cosine_similarity函数。

fromsklearn.metrics.pairwiseimportcosine_similarity# 缺失值用 0 填充 (代表没看过)user_item_matrix=movie_matrix.fillna(0)# 计算用户之间的相似度user_similarity=cosine_similarity(user_item_matrix)# 包装成 DataFrame，方便查看user_sim_df=pd.DataFrame(user_similarity,index=user_item_matrix.index,columns=user_item_matrix.index)print("\n--- 用户相似度矩阵 ---")print(user_sim_df.head())# userId 1 2 3 4 5# userId# 1 1.000000 0.027283 0.059709 0.194395 0.129080# 2 0.027283 1.000000 0.000000 0.000000 0.032118