大数据推荐系统算法(1)大数据框架简介
大数据推荐系统算法(2) lambda体系结构
大数据推荐系统算法(3)用户图像
大数据推荐系统(4)推荐算法
大数据推荐系统(5) Mahout
大数据推荐系统(6) Spark
大数据推荐系统(7)推荐系统和Lambda体系结构
大数据推荐系统(8)分布式数据采集与存储
大数据推荐系统(9)实战
1 用户画像
用户图像是现实世界用户的数学建模。
挑战:
1 .记录和存储亿级数据的用户图像
2 .支持和扩展不断增长的维和偏好
3 .毫秒级更新;
4 .支持个性化、广告投放、营销等产品。
前三个可以用hadoop解决,三个可以用spark解决
二、用户画像系统
三、用户画像处理流程
1、澄清问题和理解数据
追求数据和需求的匹配
明确需求:分类、聚类、推荐、
数据规模、重要特征展望
2、数据预处理
数据整合、冗馀和数字冲突
数据采样:取出部分数据进行处理
数据清洗、缺失值处理、噪声数据
3、特色工程
数据和特征决定了机器学习的上限,模型和算法只是逼近该算法
特征:有助于解决问题的属性
特征的提取、选择和构造:对解决的问题选择最有用的特征集合; 用相关系数等计算特征的重要性(人工筛选、Random Forest、PCA。 。 )
四、用户画像系统架构
实例:
是分类问题
小python
数据大的地图
情况1 :用户信用等级分级