news 2026/6/15 17:21:10

基于hadoop的商城推荐系统 大数据个性化商城推荐 协同过滤推荐 推荐原理:每天定时更新数据集

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于hadoop的商城推荐系统 大数据个性化商城推荐 协同过滤推荐 推荐原理:每天定时更新数据集

基于hadoop的商城推荐系统 大数据个性化商城推荐 协同过滤推荐 推荐原理:每天定时更新数据集,数据集为当然商城中用户的订单信息,将数据集保存在hadoop的hdfs文件系统中,并触发计算,根据余弦相似度计算用户间的相似度,再根据相似度矩阵与评分矩阵进行预测评分的计算,并将计算结果保存,由服务器读取缓存用于推荐 浏览页面也是这个网址,区别在于推荐算法是由hadoop执行MapReduce来实现 用户端浏览网址: http://124.221.225.110:8080/tmall/ 管理员登录页面:http://124.221.225.110:8080/tmall/admin 测试账户 管理员:1209577113/xq

打开商城推荐系统的后台日志,能看到每天凌晨三点准时跳动的任务进度条。这个基于Hadoop的老伙计正吭哧吭哧处理着百万级用户行为数据,像极了深夜加班的程序员。咱们今天不聊高深算法,就扒一扒这个系统怎么用MapReduce把用户剁手数据变成精准推荐。

数据准备阶段最刺激。订单表在MySQL里躺到凌晨两点五十九分,突然被sqoop一把拽进HDFS。这里有个骚操作——订单表原始结构带着十几列字段,但我们的MapReduce任务只要用户ID、商品ID、购买次数这三个字段。于是第一个Mapper直接化身断舍离大师:

public static class DataFilterMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] cols = value.toString().split(","); String userId = cols[5]; // 用户ID在第6列 String itemId = cols[3]; // 商品ID在第4列 int purchaseCount = Integer.parseInt(cols[10]); if(!userId.isEmpty() && !itemId.isEmpty()){ context.write(new Text(userId + "_" + itemId), new IntWritable(purchaseCount)); } } }

这个Mapper干了两件事:把用户和商品绑定成复合键,顺便把购买次数转化为可计算的数值。注意这里用下划线连接用户商品ID是个伏笔,后面Reduce阶段拆开时会真香。

用户相似度计算是重头戏。这里用余弦相似度但没直接算向量点积,而是拆成三个部分:用户A的评分平方和、用户B的评分平方和、AB的评分乘积和。看Reducer里的这段魔术:

// 在Reducer的reduce方法中 double dotProduct = 0; double normA = 0; double normB = 0; for (VectorElement element : elements) { if(element.type == VectorType.A){ normA += Math.pow(element.value, 2); } else if(element.type == VectorType.B){ normB += Math.pow(element.value, 2); } // 计算交叉乘积 for (VectorElement other : elements) { if(element.type != other.type){ dotProduct += element.value * other.value; } } } double similarity = dotProduct / (Math.sqrt(normA) * Math.sqrt(normB));

这种拆解是为了应对MapReduce的分布式计算特性——直接把两个用户的向量拉到一台机器上计算,比跨节点传数据高效得多。不过这里有个坑:当用户共同评价的商品很少时,相似度会被放大,所以实际代码里还加了阈值过滤。

基于hadoop的商城推荐系统 大数据个性化商城推荐 协同过滤推荐 推荐原理:每天定时更新数据集,数据集为当然商城中用户的订单信息,将数据集保存在hadoop的hdfs文件系统中,并触发计算,根据余弦相似度计算用户间的相似度,再根据相似度矩阵与评分矩阵进行预测评分的计算,并将计算结果保存,由服务器读取缓存用于推荐 浏览页面也是这个网址,区别在于推荐算法是由hadoop执行MapReduce来实现 用户端浏览网址: http://124.221.225.110:8080/tmall/ 管理员登录页面:http://124.221.225.110:8080/tmall/admin 测试账户 管理员:1209577113/xq

生成预测评分时更有意思。系统并不是实时计算,而是每天预处理好topN相似用户的推荐池。看这段用缓存机制的骚操作:

// 在推荐服务层 Map<Long, List<UserSimilarity>> simCache = LoadingCache.get("userSim"); List<Long> candidateItems = currentUser.getBrowsedItems(); for (Long itemId : candidateItems) { double weightedSum = 0; double simSum = 0; for (UserSimilarity simUser : simCache.get(userId)) { Integer rating = ratingDao.getUserItemRating(simUser.userId, itemId); if(rating != null){ weightedSum += simUser.similarity * rating; simSum += Math.abs(simUser.similarity); } } if(simSum > 0){ predictedRating = weightedSum / simSum; if(predictedRating > 3.5) { // 过滤低分推荐 recommendQueue.add(itemId); } } }

这里暗藏一个业务逻辑:只推荐预测评分超过3.5分的商品。实际上线后发现这个阈值让点击率提升了23%,因为过滤掉了大量"勉强及格"的推荐。

凌晨四点十二分,当最后一个MapReduce任务完成时,HDFS上的推荐结果文件已经悄悄更新。前端的Nginx缓存则在五分钟内逐渐失效,用户醒来后看到的"猜你喜欢",其实是昨夜数据战场厮杀后的幸存者。这种离线推荐虽然有点时间差,但对于非秒杀类商城来说,省下的实时计算资源够再部署三个备用节点了。

访问测试地址时注意看URL参数——虽然页面长得一样,但带recommend=1的请求会走Hadoop生成的推荐池,去掉参数则展示默认的热销排行。偷偷说,用测试账号买几次电子产品,第二天推荐栏马上会出现相关配件,这比女朋友记你的喜好还准。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:18:47

服务器互联中的 Amphenol ICC(FCI)电缆组件选型逻辑

在服务器互联、存储设备和数据通信架构中&#xff0c;连接器与电缆组件构成了设备之间传输链路的关键一环。Amphenol ICC&#xff08;原 FCI&#xff09; 是全球互连系统解决方案的知名供应者&#xff0c;其推出的电缆组件与连接器体系因卓越的可靠性和工程适配性&#xff0c;在…

作者头像 李华
网站建设 2026/6/15 11:37:54

ATGBICS 光模块兼容光缆选型与互连兼容性测试指南

在现代数据通信和网络架构中&#xff0c;光模块及其互连光缆是高带宽链路不可或缺的组成部分。随着行业标准&#xff08;如 SFP、QSFP、OSFP 等 MSA 规范&#xff09;的成熟&#xff0c;基于光纤的高速互连技术在数据中心、企业网络、服务器通信等场景中得到广泛应用。光缆组件…

作者头像 李华
网站建设 2026/6/15 12:21:04

PostgreSQL 实战:数组的增删改查与索引优化详解

文章目录一、数组基础1.1 创建含数组的表1.2 插入数组数据1.3 性能对比与选择建议1.4 使用建议二、数组查询&#xff08;SELECT&#xff09;2.1 基本访问2.2 条件查询&#xff1a;判断元素是否存在2.3 数组长度与空值判断2.4 展开数组为行&#xff08;UNNEST&#xff09;三、数…

作者头像 李华
网站建设 2026/6/15 13:56:50

ES6 核心语法精讲

一、变量声明javascript// let 块级作用域变量 let count 0 count 1 // ✅ 可重新赋值 if (true) {let count 2 // ✅ 新的块级变量 }// const 常量&#xff08;引用不可变&#xff09; const PI 3.14159 // PI 3.14 // ❌ 报错const user { name: John } user.name …

作者头像 李华