python中文问题研究,python研究的问题

本文目录一览：

1、python中文乱码解决
2、如何解决python 打印中文出错的问题
3、如何利用Python对中文进行分词处理
4、如何正确解决Python中的中文编码问题
5、python中中文编码的问题

python中文乱码解决

windows下的文件路径，cmd窗口等默认编码都是gbk

但在windows下编写python程序的时候，我们一般采用的编码是utf-8

二者不一致是导致乱码的根本原因！

在pycharm下，为了中文不乱码，那么需要注意一下几个方面：

一、每一个源程序文件头部，需要加上

#-*-coding:utf-8;-*-

这样就没有乱码了

如何解决python 打印中文出错的问题

解决python打印中文出错的方法：

如果使用的是python2的话，需要在.py文件第一行加入“#coding=utf-8”，然后使用“print("中文")”的方式打印中文

示例如下：

执行结果：

python3直接使用“print("中文")”语句就可以了

示例如下：

执行结果：

更多Python知识，请关注：Python自学网！！

如何利用Python对中文进行分词处理

python做中文分词处理主要有以下几种：结巴分词、NLTK、THULAC

1、fxsjy/jieba

结巴的标语是：做最好的 Python 中文分词组件，或许从现在来看它没做到最好，但是已经做到了使用的人最多。结巴分词网上的学习资料和使用案例比较多，上手相对比较轻松，速度也比较快。

结巴的优点：

支持三种分词模式

支持繁体分词

支持自定义词典

MIT 授权协议

2、THULAC：一个高效的中文词法分析工具包

前两天我在做有关于共享单车的用户反馈分类，使用jieba分词一直太过零散，分类分不好。后来江兄给我推荐了THULAC：由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包。THULAC的接口文档很详细，简单易上手。

THULAC分词的优点：

能力强。利用规模最大的人工分词和词性标注中文语料库（约含5800万字）训练而成，模型标注能力强大。

准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％

速度较快。同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度达到1.3MB/s，速度比jieba慢

Python 解决中文编码问题基本可以用以下逻辑：

utf8（输入） —— unicode（处理） —— （输出）utf8

Python 里面处理的字符都是都是unicode 编码，因此解决编码问题的方法是把输入的文本（无论是什么编码）解码为（decode）unicode编码，然后输出时再编码（encode）成所需编码。

由于处理的一般为txt 文档，所以最简单的方法，是把txt 文档另存为utf-8 编码，然后使用Python 处理的时候解码为unicode（sometexts.decode('utf8')），输出结果回txt 的时候再编码成utf8（直接用str() 函数就可以了）。

如何正确解决Python中的中文编码问题

import time

print u"这是一个测试" #字符串前的u为避免Python CMD运行乱码

s=raw_input("请输入内容:".decode('utf-8').encode('gbk')) #.decode().encode()同样为避免Python CMD运行乱码

print u"输入的内容是：",s

time.sleep(5) #延时关闭窗口（5秒）

这是一个2.7版本输入输出的测试脚本，中文输入输出都没问题，你可以试试。

python中中文编码的问题

ls=['xe4xb8xadxe6x96x87']

print 'n'.join(ls)

把list中的字符串用换行连接成新字符串再打印

如果list中不全是字符串，手动转换成字符串

print 'n'.join(str(a) for a in ls)

ls是list变量名