首页 > 编程知识 正文

印象笔记使用教程,数据挖掘能否自学

时间:2023-05-03 06:05:08 阅读:142129 作者:1952

本文所有内容和知识截图均来自学堂在线

推荐

准确的广告投放

根据地点、手机型号等

隐含语义分析TF-idf

这篇文章中有最合适的搜索词,但其他文章中没有。

如果大家都有,就没有意义了

最终的值根据TF-idf的值来判断

如果,像the,a这样的在所有文档都有,那么idf值就是0,最终TF-idf的值就也是0

处理文档时,将文档转换为矩阵

计算机无法处理文档。 全部转换成某种数字,再转换成矢量

计算文档的相关性和角度

存在的问题

同义词

car,Vehicle,automobile------ poor recall

一词多义

apple computer,applejuice--------poorprecision

Latent Semantic Analysis

公式如下

官方举例说明

第9篇文档矩阵进行降维,只取前两维,得到X矩阵的近似矩阵

每行看作单词,用二维空间表示

有两个单词很接近。 (从原点开始的出发矢量的角度较小,欧式距离并不近)。

一些文档也是如此

PageRack是因为b指出了两个,所以除以2,c和d也一样,最终构成a的PageRack

collaborative http://www.Sina.com /

下图为A用户对I产品的评分

User-Based CF,因此平均需要r1(Overliner_1r1 )

上面是行与行的相关关系

列和列的依赖关系如下所示

基本项目cf

每个人打分尺度不一样,同样是4分,有的人代表很高了,有的习惯打5分的就比较低了

转换为分类问题

将评分矩阵转换为训练集、标签

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。