Word2vec训练中文单词向量
发布时间: 2018-08-16 10:55、
浏览次数: 445
、标签:
单词
威盛集团
Word2vec训练中文单词向量
将所有词汇读入列表中,将每个句子分为单词的句子作为列表的要素。 如下所示
[“I”,“am”,“a”,“girl'],[‘he”,“is”,“a”,“boy']
fromgensim.modelsimportword2vec
导入操作系统
导入系统
#以下代码是训练字矢量的代码
sentence=[]
word=[]
tag=0
withopen('data_all.txt ',encoding='utf-8 ' ) as fp: ##
打印(类型) FP ) )
for line in fp.readlines () :
#是打印(行)
line=line.strip (
if line=='':
连续
tag =1
是打印(tag )
if tag 10000:
布雷克
if tag==1:
line1=[''] line.split (
Sentence.append(line1) )
word.append (' ) )
else:
Sentence.append(line.split ) )
for each in line.split () :
if each not in word:
word.append(each )
#打印(len (sentence ) )
模型=word2vec (sentence,sg=1,size=100,window=5,min_count=1,
negative=3,sample=0.001,hs=1,工作器=4)
模型. save (dict _ data _ model ) )
模型=word2vec.load (dict _ data _ model ) #加载模型
F1=open(data_vec.txt )、) w )、encoding=(utf-8 ) ) ) ) ) ) 65
f1 .写入(str (len ) word ) ) ) str ) 100 ) (n ) ) ) ) ) 652
for each in word:
#打印(each ) ) )。
str1=' '
for e in model[each]:
if str1=='':
str1=str(e )
else:
str1=str1''str(e ) ) )
F1.write(each''str1'n ' ) ) )。
f1.close () )。
打印(len ) word ) )
打印(len (列表)集word ) )
训练语向量词汇较大时,会出现内存不足的问题,可以使用以下代码进行修正。
class sentences_generator () :
def _ _ init _ _ (自,文件名) :
self.filename=filename
def __iter__(self ) :
forlineinopen(self.filename ) :
sentence=line.rstrip (' ' )
Ield传感器
传感器=sentences _ generator (data _ all.txt )。
模型=word2vec (sentence,sg=1,size=100,window=5,min_count=1,
negative=3,sample=0.001,hs=1,工作器=4)
模型. save (dict _ data _ model ) )
模型=word2vec.load (dict _ data _ model ) #加载模型
F1=open(data_vec.txt )、) w )、encoding=(utf-8 ) ) ) ) ) ) 65
f1 .写入(str (len ) word ) ) ) str ) 100 ) (n ) ) ) ) ) 652
for each in word:
#打印(each ) ) )。
str1=' '
for e in model[each]:
if str1==
'':str1 = str(e)
else:
str1 = str1+' '+str(e)
f1.write(each+' '+str1+'n')
f1.close()
print(len(word))
print(len(list(set(word))))
相关的博客网址:https://blog.csdn.net/thriving_fcl/article/details/51406780
第一种方法是将语料转换为一个python的list作为输入,但是语料较大时,大到报内存不够的错误时,该方法就失效了
第二种方法主要是为了解决第一种方法出现的问题,“
gensim的API并不要求sentences必须是list对象,只要输入的sentences是iterable的就行,那我们只要一次载入一个句子,训练完之后再将其丢弃,内存就不会因为语料过大而不够了。我们通过下面的代码就可以生成一个iterator。事先已经将训练语料
分词,词与词之间采用空格分开,并保存在一个文档里。
其实用一个函数也可以生成一个迭代器,只不过函数生成的迭代器迭代一轮就失效了,而这里需要迭代多轮。第一轮统计词频,用于生成哈夫曼树。后续用于训练,因此封装成一个类。
”(此段是引用上面博客中的内容)
##相关参数的解释
sg 定义训练算法,默认是sg=0,采用CBOW,否则sg=1采用skip-gram
size 是特征向量的维数,默认值为100维
window 设置当前词汇与上下文词汇的最大间距,默认值为5窗口
alpha 是最初学习速率,随着训练的进行,逐渐减少至0
seed 用于随机数生成器
min_count 设置最低有效词频,过滤掉一些低频词
max_vocab_size
设置词向量训练期间的最大RAM,如果词汇量超过这个就减掉词频最小的那个,设置None则不限制,每1000万字大概需要1Gb内存
sample 设置高频词随机下采样的阈值,默认值为1e-3,有效范围为(0,1e-5)
workers 设置几个工作线程来训练模型(有效利用多核机器)
hs 如果设置为1,将用于模型训练。如果设置为0(默认),同时negative设置为非零,将使用负采样
negative 如果> 0,将使用负采样,该数值指定应取出多少“噪声字”(通常在5-20之间)。默认值为5,如果设置为0,则不使用负采样
cbow_mean = 如果设置为0,使用上下文词向量的和。如果设为1(默认),则使用平均值,仅适用于使用cbow时。
hashfxn 散列函数,用于随机初始化权重以增加训练的可重复性。默认是Python的基本内置哈希函数
iter 语料库中的迭代次数(epochs),默认值为5
trim_rule
词汇修剪规则,指定某些词是否应保留在词汇表中,被修剪掉或使用默认值处理(如果字计数
)或接受参数(word,count,min_count)的可调用并返回utils.RULE_DISCARD,utils.RULE_KEEP或utils.RULE_DEFAULT。注意:规则(如果给出)仅在build_vocab()期间用于修剪词汇表,不会作为模型的一部分存储。
sorted_vocab 如果设为1(默认),在分配词索引之前,通过降序对词汇表进行排序。
batch_words
传递给工作线程(以及此cython例程)的示例批次的目标大小(以字为单位)。默认值为10000.(如果单个文本长度大于10000个字,则会传递更大的批次,但标准的cython代码会截断到最大值。)