O'Reilly Media,Inc .介绍
译者序
前言
第一章优美的文本格式
比较漂亮的文本结构和其他数据结构
unnest_tokens函数
整理ydy Austen的作品
gutenbergr软件包
词频
总结
第二章基于清洁数据的情感分析
情感数据集
内部结合的情感分析
比较三部感情词典
最常见的正面单词和负面单词
word云模块
非单词文本单元格
总结
第三章分析词和文档频率: tf-111df
ydy Austen小说中单词的频率
Zipf定律
bind_tf_idf函数
物理学语料库
总结
第四章词语之间的关系: n-gram与相关性
n-gram的词条化
在widyr包中计数单词对,计算相关关系
总结
第五章非清洁格式转换
文档组织单词列表
将漂亮的文本数据转换为矩阵
总结
第六章主题建模
LDA
/博大的图书馆收藏
LDA方法的替代实现
总结
第七章案例分析:推特归档比较
单词使用情况比较
单词使用情况的变化
收集和转发
总结
第八章案例分析: NASA元数据挖掘
美国航空航天局如何组织数据
当前单词和相关单词
计算描述字段的tf-111df
总结
第九章案例分析: Usenet文本分析
预处理
新闻组中的单词
情感分析
总结
参考文献
作者简介
封面介绍