首页 > 编程知识正文

印象笔记使用教程,数据挖掘能否自学

时间：2023-05-03 06:05:08 阅读：142129 作者：1952

本文所有内容和知识截图均来自学堂在线

推荐

准确的广告投放

根据地点、手机型号等

隐含语义分析TF-idf

这篇文章中有最合适的搜索词，但其他文章中没有。

如果大家都有，就没有意义了

最终的值根据TF-idf的值来判断

如果，像the，a这样的在所有文档都有，那么idf值就是0，最终TF-idf的值就也是0

处理文档时，将文档转换为矩阵

计算机无法处理文档。全部转换成某种数字，再转换成矢量

计算文档的相关性和角度

存在的问题

同义词

car，Vehicle，automobile------ poor recall

一词多义

apple computer，applejuice--------poorprecision

Latent Semantic Analysis

公式如下

官方举例说明

第9篇文档矩阵进行降维，只取前两维，得到X矩阵的近似矩阵

每行看作单词，用二维空间表示

有两个单词很接近。 (从原点开始的出发矢量的角度较小，欧式距离并不近)。

一些文档也是如此

PageRack是因为b指出了两个，所以除以2，c和d也一样，最终构成a的PageRack

collaborative http://www.Sina.com /

下图为A用户对I产品的评分

User-Based CF，因此平均需要r1(Overliner_1r1 )

上面是行与行的相关关系

列和列的依赖关系如下所示

基本项目cf

每个人打分尺度不一样，同样是4分，有的人代表很高了，有的习惯打5分的就比较低了

转换为分类问题

将评分矩阵转换为训练集、标签

阅读全文

版权声明：该文观点仅代表作者本人。处理文章：请发送邮件至三1五14八八95#扣扣.com 举报，一经查实，本站将立刻删除。

标签：

相关阅读