python处理中文与英文（python中英文字符和中文字符）

本文目录一览：

1、如何用 Python 中的 NLTK 对中文进行分析和处理
2、python 格式化带中文等字符与纯英文显示串位的问题
3、如何解决Python中文问题

如何用 Python 中的 NLTK 对中文进行分析和处理

最近正在用nltk 对中文网络商品评论进行褒贬情感分类，计算评论的信息熵（entropy）、互信息（point mutual information）和困惑值（perplexity）等（不过这些概念我其实也还理解不深...只是nltk 提供了相应方法）。

我感觉用nltk 处理中文是完全可用的。其重点在于中文分词和文本表达的形式。

中文和英文主要的不同之处是中文需要分词。因为nltk 的处理粒度一般是词，所以必须要先对文本进行分词然后再用nltk 来处理（不需要用nltk 来做分词，直接用分词包就可以了。严重推荐结巴分词，非常好用）。

中文分词之后，文本就是一个由每个词组成的长数组：[word1, word2, word3…… wordn]。之后就可以使用nltk 里面的各种方法来处理这个文本了。比如用FreqDist 统计文本词频，用bigrams 把文本变成双词组的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。

再之后就可以用这些来计算文本词语的信息熵、互信息等。

再之后可以用这些来选择机器学习的特征，构建分类器，对文本进行分类（商品评论是由多个独立评论组成的多维数组，网上有很多情感分类的实现例子用的就是nltk 中的商品评论语料库，不过是英文的。但整个思想是可以一致的）。

另外还有一个困扰很多人的Python 中文编码问题。多次失败后我总结出一些经验。

Python 解决中文编码问题基本可以用以下逻辑：

utf8（输入） —— unicode（处理） —— （输出）utf8

Python 里面处理的字符都是都是unicode 编码，因此解决编码问题的方法是把输入的文本（无论是什么编码）解码为（decode）unicode编码，然后输出时再编码（encode）成所需编码。

由于处理的一般为txt 文档，所以最简单的方法，是把txt 文档另存为utf-8 编码，然后使用Python 处理的时候解码为unicode（sometexts.decode('utf8')），输出结果回txt 的时候再编码成utf8（直接用str() 函数就可以了）。

python 格式化带中文等字符与纯英文显示串位的问题

对字符串中的每个字符判断一下是不是ascii码就是了，如果不是很大量的数据，效率也还好啦，

像这样的用string.rjust string.ljust比较好吧

如何解决Python中文问题

python的中文问题一直是困扰新手的头疼问题，Python的发行版至今尚未包括任何中文支持模块。当然，几乎可以确定的是，在将来的版本中，python会彻底解决此问题，不用我们这么麻烦了。笔者使用的是2.5版本。Python的版本可以通过调用sys模块的sys.version查看。在几个月的学习中，主要遇到以下问题：

1. print打印中文的问题：

在编辑器中输入一段测试代码：

s=’测试’

print s

运行结果如下：

Non-ASCII character 'xb2' in file c:Documents and SettingsAdministrator桌面2.py on line 1, but no encoding declared; see for details: 2.py, line 1, pos 0

原因是如果文件里有非ASCII字符，需要指定编码声明。把2.py文件的编码重新改为utf-8，并加上编码声明：

# -*- coding: utf-8 -*-

s=’测试’

print s

运行后可以正确打印中文。

2.中文路径的问题。

在D盘下保存一个名字为‘中文.txt‘的文件。运行如下测试代码：

# -*- coding: utf-8 -*-

f=open('D:\中文.txt', 'r')

print f.read()

运行结果如下：

IOError: [Errno 2] No such file or directory: 'D:\xe4xb8xadxe6x96x87.txt'

字符串有很多的编码，不同的系统和平台有各自的编码，为了实现系统或平台之间的信息交互可能需要编码转换。这里只需要先使用UNICODE编码一下，这样再读取中文路径就不会有问题了：

复制代码

# -*- coding: utf-8 -*-

path='D:\中文.txt'

spath=unicode(path , "utf8")

f=open(spath,'r')

print f.read()

复制代码

然后就可以正确显示文件内容

总结：

所有的中文显示问题都可以归结为编码问题，遇到其他类似的问题，那只能仔细看文档，靠你的经验，靠你多做测试。而且根据python所报出来的错误一般也可以判断出来。那么当发现需要编码转换时，剩下的就是如何正确进行码制转换。

为了正确处理多语言文本，Python在2.0版后引入了Unicode字符串。从那时起，Python语言中的字符串就分为两种：一种是2.0版之前就已经使用很久的传统Python字符串，一种则是新的Unicode字符串。在Python语言中，一般的解决办法是使用unicode()内建函数对一个传统Python字符串进行“解码”，得到一个Unicode字符串，然后又通过Unicode字符串的encode()方法对这个Unicode字符串进行“编码”，将其“编码”成为传统Python字符串。