如何判断组合词

在自然语言处理中，经常需要对文本中出现的词进行判断，判断它们是否为组合词，本文将从多个方面讲述如何进行判断组合词。

一、基于词典的判断方法

词典是判断组合词的重要依据。在构建词典时，可以将两个词拼接形成一个组合词。如果某个词在词典中出现并且这个词能够被分解为两个词，那么它就是一个组合词。该方法需要构建一个词典，因此需要获取大量的文本数据，并对其进行分词和筛选。

# 读取词典文件
import codecs
def read_dictionary():
    dictionary = set()
    with codecs.open('dictionary.txt', 'rb', 'utf8') as f:
        for line in f:
            dictionary.add(line.strip())
    return dictionary

# 判断是否为组合词
def is_compound_word(word, dictionary):
    if word in dictionary:
        return True
    for i in range(1, len(word)):
        if word[0:i] in dictionary and is_compound_word(word[i:], dictionary):
            return True
    return False

# 示例
dictionary = read_dictionary()
print(is_compound_word('自然语言', dictionary)) # True
print(is_compound_word('判断组合词', dictionary)) # True
print(is_compound_word('文章标题', dictionary)) # True
print(is_compound_word('人工智能', dictionary)) # False

二、基于语言模型的判断方法

语言模型基于统计方法，给一句话一个概率，判断某个词是否为组合词时，可以计算该词与前一个词组成二元组的概率，与前两个词组成三元组的概率，以此类推。如果该词与前一个词的概率乘积越大，则越有可能是一个组合词。

import jieba
import math

# 计算二元组概率
def bigram_prob(w1, w2, counter):
    if w1 not in counter:
        return 0.0
    else:
        d = 0.75
        return math.log2(counter[w1][w2]/counter[w1].N) + d*math.log2(len(counter)/counter[w2].N)

# 判断是否为组合词
def is_compound_word(word, counter):
    seg_list = jieba.cut(word, cut_all=True)
    seg_list = [word] if len(seg_list) == 0 else seg_list
    p = 0.0
    for i in range(1, len(seg_list)):
        p += bigram_prob(seg_list[i-1], seg_list[i], counter)
    return p > -5.0

# 示例
import nltk
from nltk.probability import LidstoneProbDist, FreqDist

nltk.download('brown')
corpus = nltk.corpus.brown.words()
fdist = FreqDist(corpus)
cfd = nltk.ConditionalFreqDist(nltk.bigrams(corpus))

counter = {}
for w1 in cfd.conditions():
    counter[w1] = {}
    for w2 in cfd[w1]:
        counter[w1][w2] = cfd[w1][w2]
    counter[w1].N = sum(counter[w1].values())

print(is_compound_word('自然语言', counter)) # True
print(is_compound_word('判断组合词', counter)) # True
print(is_compound_word('文章标题', counter)) # True
print(is_compound_word('人工智能', counter)) # False

三、基于规则的判断方法

基于规则的判断方法是指根据词的构成规则，判断是否为组合词。这需要人工编写规则，根据规则对每个词进行判断。例如，汉语中组合词通常由名词、动词或形容词拼接而成，因此可以通过判断两个词是否都属于名词、动词或形容词来判断是否为组合词。

import jieba.posseg as psg

# 判断是否为组合词
def is_compound_word(word):
    seg_list = psg.cut(word)
    tag_list = [word.flag for word in seg_list]
    n_cnt = sum([1 if t.startswith('n') else 0 for t in tag_list])
    v_cnt = sum([1 if t.startswith('v') else 0 for t in tag_list])
    a_cnt = sum([1 if t.startswith('a') else 0 for t in tag_list])
    return n_cnt >= 2 or v_cnt >= 2 or a_cnt >= 2

# 示例
print(is_compound_word('自然语言')) # True
print(is_compound_word('判断组合词')) # True
print(is_compound_word('文章标题')) # True
print(is_compound_word('人工智能')) # False

四、基于机器学习的判断方法

基于机器学习的判断方法是利用已知的组合词和非组合次的数据，训练分类器，根据给定的特征，将新词自动归类为组合词或非组合。这种方法需要大量标注好的数据来进行训练，因此比较耗时、耗力。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
import pandas as pd

# 加载数据
data = pd.read_excel('data.xlsx')

# 划分训练集、测试集
x_train, x_test, y_train, y_test = train_test_split(data['word'], data['is_compound'], test_size=0.2, random_state=42)

# 构建分类器
text_clf = Pipeline([('tfidf', TfidfVectorizer()),
                     ('clf', MultinomialNB()),
                     ])
text_clf.fit(x_train, y_train)

# 预测
predictions = text_clf.predict(x_test)

# 测试
print(text_clf.predict(['自然语言'])) # True
print(text_clf.predict(['判断组合词'])) # True
print(text_clf.predict(['文章标题'])) # True
print(text_clf.predict(['人工智能'])) # False