首页 > 编程知识 正文

怎么爬取微信聊天记录,爬虫爬取微信聊天记录

时间:2023-05-05 23:24:54 阅读:165734 作者:1742

前言2019年过去了。 我想回顾一下在过去的一年里和好朋友说了什么,打算把微信的记录作为语言的云。

1微信记录导出1.1itunes备份点击立即备份,手机文件备份到电脑上

1.2月免费iTunes备份管理器在电脑上安装运行,将备份数据中保存有微信聊天记录的文档文件夹导出电脑。

1.3楼月微信记录导出恢复助手电脑安装楼月微信记录导出恢复助手,选择要导出的好友,复制所有聊天记录,在电脑上新建TXT文本文件

楼月软件官方介绍

安装包在这里哦

2准备工作2.1安装第三方库wordcloud包

将下载的文件放在名为pipinstallwordcloud1.4.1cp36 cp36 mwin _ amd64.whl的文件夹中

首先,请注意进入放置此文件的目录。 例如,输入D:

如果需要生成中文云,还需要部署jieba分词包。

jieba官方网站

2.2素材正式输入代码前,还需要下载中文字体文件和掩码层图片。

中文字体文件

为了方便起见,将字体文件、蒙版图层图像和文本文件移动到工作目录下。

3要编写代码,必须导入numpy包,因为您想生成带有大纲的单词云。 这是python开源数值计算扩展,可用于存储和处理大矩阵。 处理时,将图像显示为大矩阵,在有颜色的地方输入单词。

importpandasaspdimportnumpyasnpfromosimportpath然后读取TXT文件。 请注意,之前保存并编码时选择UTF-8。 否则可能会报告错误哦

filename=' h :/AAA/ping.txt ' withopen (filename,' r ',encoding='utf-8 ' ) as f: mytext=f.read )

禁用单词时,请手动删除或创建禁用词典

importjiebaimportjieba.analysefromwordcloudimportwordcloud,ImageColorGenerator,stopwordsmytext=str(mytext ) mytext

然后读入图像和字体,设定参数。 scale的数值越大,生成的图像的分辨率越高,文字越清晰。

d=path.dirname(h://AAA//) (from PIL import Image轻薄花_mask=NP.Array ) image.open ) path.Join ) d,' d simsun.TTF ' word cloud=word cloud (scale=16,font_path=font,background_color='White ',max _ words=150 ).generate(mytext )最后一次执行这一系列代码时,会生成云并将其保存为png格式。

% pylabinlineimportmatplotlib.pyplotasplt.im show (word cloud,interpolation='bilinear ' ) PLT.axis ) off ' ) word

可以看到大部分的印戳语出现了两次。 因此,最初的数据清洗很重要。 ``啊,今天就到这里吧。 新年快乐

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。