本文所有内容和知识截图均来自学堂在线
推荐
准确的广告投放
根据地点、手机型号等
隐含语义分析TF-idf
这篇文章中有最合适的搜索词,但其他文章中没有。
如果大家都有,就没有意义了
最终的值根据TF-idf的值来判断
如果,像the,a这样的在所有文档都有,那么idf值就是0,最终TF-idf的值就也是0
处理文档时,将文档转换为矩阵
计算机无法处理文档。 全部转换成某种数字,再转换成矢量
计算文档的相关性和角度
存在的问题
同义词
car,Vehicle,automobile------ poor recall
一词多义
apple computer,applejuice--------poorprecision
Latent Semantic Analysis
公式如下
官方举例说明
第9篇文档矩阵进行降维,只取前两维,得到X矩阵的近似矩阵
每行看作单词,用二维空间表示
有两个单词很接近。 (从原点开始的出发矢量的角度较小,欧式距离并不近)。
一些文档也是如此
PageRack是因为b指出了两个,所以除以2,c和d也一样,最终构成a的PageRack
collaborative http://www.Sina.com /
下图为A用户对I产品的评分
User-Based CF,因此平均需要r1(Overliner_1r1 )
上面是行与行的相关关系
列和列的依赖关系如下所示
基本项目cf
每个人打分尺度不一样,同样是4分,有的人代表很高了,有的习惯打5分的就比较低了
转换为分类问题
将评分矩阵转换为训练集、标签