首页 > 编程知识 正文

镜像维基百科 yoooo,维基百科镜像网站

时间:2023-05-06 13:30:44 阅读:225041 作者:1929

维基百科语料资源丰富,而维基百科又提供数据库下载,是语料资源来源的良好途径。

1. 中文维基数据下载

下载dump:https://dumps.wikimedia.org/zhwiki/latest/,维基数据主要包含以下几部分


zhwiki-latest-pages-articles.xml.bz2           词条正文zhwiki-latest-redirect.sql 词条重定向(同义词)zhwiki-latest-pagelinks.sql 词条页面内容外链zhwiki-latest-page.sql词条标题及摘要zhwiki-latest-categorylinks.sql 词条开放分类链接

本文处理的数据是: zhwiki-latest-pages-articles.xml.bz2

2. 中文维基数据解析

下载后需要对该xml文件的压缩包作处理,所幸gensim的WikiCorpus已经预置了部分处理。几行关键的python代码如下:

input_file = "zhwiki-latest-pages-articles.xml.bz2"wiki = WikiCorpus(input_file, lemmatize=False, dictionary={}) for text in wiki.get_texts(): str_line = bytes.join(b' ', text).decode() #以下可以存入文件或数据库

转载于:https://www.cnblogs.com/zhaobang/p/7077669.html

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。