首页 > 编程知识 正文

python之pypinyin,的python

时间:2023-12-27 22:27:18 阅读:325829 作者:GVBI

本文目录一览:

Python的pypinyin模块怎么添加

win+R 回车打开cmd窗口,输入pip install pypinyin即可下载,python中模块的下载都是用命令pip install 模块名,导入库用import 模块名

pypinyin显示音调数字

这需要用到python中拼音库的用法。

Python中提供了汉字转拼音的库,名字叫做PyPinyin,可以用于汉字注音,排序,检索等等场合,是基于hotto或pinyin这个库开发的。

它有这么几个特性。1.根据词组智能匹配最正确的拼音2.支持多音字,3.简单的繁体支持,注音支持,4.支持多种不同拼音或注音风格。

python脚本,将一个文本中所有开头发音相同的词归到同一行

解决方案如下:

使用pip安装程序所依赖的汉字转拼音库pypinyin:

pip install pypinyin

2. 代码如下:

from pypinyin import lazy_pinyin

table = {}

with open('in.txt','r', encoding='utf-8') as f:

    for line in f:

        line = line.strip()

        key = lazy_pinyin(line[0])[0]

        if table.get(key):

            table[key].append(line)

        else :

            table[key] = [line]

with open('result.txt','w',encoding='utf-8') as f:

    for key in table:

        f.write(key)

        for v in table[key]:

            f.write(' ' + v)

        f.write('n')

注意:

根据需要将代码中的in.txt修改为你要导入的文件名

要导入的文件编码需要先转换为utf-8格式

输出文件名为result.txt,编码格式为utf-8

关于“商业敏感性”和“执行力”的故事

关于后面的帖子,老土觉得主人公的“商业敏感性”非常值得学习。中国有嘻哈累计播放量30亿次,看过这个节目的有技术背景的人实在不是小数。这个哥们可以敏锐的发现这个商机虽然有偶然性,但是也有必然性。而要如何具备这种商业敏锐性才是老土认为值得思考的。而在老土所在的职业技术学院对学生这方面的培养并不被重视。而老土也就只能是尽可能让自己的学生可以尽早的接触一些商业思维,希望对他们日后有所助益。

在“商业敏感性”之外,下文主人公的“执行力”也是他可以达成这个商机的核心原因。这里老土要格外强调一下“执行力”。可能有的看官在看了这个帖子之后,会觉得主人公可以搞出来“押韵灵感”的原因是他手头恰好有一些现成的资源(比如说现成的语料库),但老土认为成就这个哥们的是他的执行力。如果让老土说心目中的第一美德,那么“执行力”绝对是妥妥的第一名。这个世界上敏锐的人很多,有能力的人也很多,但做成事情的人并没有那么多。这其中的差异主要是“执行力”导致的。

我看了很多期中国有嘻哈,印象尤其深刻的是,某一次淘汰赛,每个小组要在24小时内完成一首歌。众所周知,一首歌既有歌词又有调调,一天内完成绝不是一件容易的事,选手们为此绞尽脑汁,前期花了很多时间在创作上,后面留给背歌词的时间就少了很多,这直接导致了后来演唱忘词的事情发生。

那个时候我就在想,如果有什么工具,能够辅助他们进行歌词的创作,那就牛逼了。但这个时候我也仅仅是想想而已,毕竟看完节目就一两点了,困得不行。

几天之后,有一个哥们儿加我微信,他知道我以前爬了很多歌词数据,问我能不能让他按照韵脚来查询,并且愿意为此付费。这一瞬间我脑袋灵光一闪,觉得这个需求可能还真的存在,回复了他一句,我研究一下,同时开始研究起来。

我首先注意到了国外的相关产品,Google 一搜 rhyme ,就能看到大堆的产品,其中排名第一的 rhymezone,网站全球排名7000多名,流量达到了可怕的1100多万:

反观国内,搜索「押韵」或者「韵脚」,得到的都是一堆几年前的旧东西,以文本内容为主,比如这样的:

老实说,这东西的可读性几乎为0。不过也不是所有的结果都这样,也有一些网站,提供了押韵的查询,但是基本只是单个字的押韵,没有词语,没有句子,在押韵的方法上也不支持歌词中常见的「双押」,「三押」等查询。

别人做的烂,这就有可能是机会。于是,我开始着手做一个更强大的押韵工具。

这事儿说难不难,说简单也不简单,首先我需要搜集很多的歌词和词语,然后把他们每个字的韵脚都找出来,如此一来,当有人输入一个词的时候,我就可以根据他这个词的韵脚,来找到与之押韵的词语了。

在具体的技术处理上,我用 python 的开源库 pypinyin 来取得汉字的拼音,然后写了一个程序,可以按照韵脚不同自动归类。接着我把公司内部一个语料库的30万个词语都跑了一遍,获得了这些词语的韵脚。在这之后我又把之前的歌词数据都跑了一遍,把歌词的韵脚也拿到了。

数据有了之后,做个壳套上去就非常容易了,我花了一番功夫,把它做的像那么回事儿。

在使用上,这个工具支持歌词押韵查询(带有语义相似识别,指定歌手,指定字数押韵查询),押韵词语查询,包含双押,三押,多押等等。

另外我直接嵌入了微信支付接口,把这个做成一个彻头彻尾的付费产品。为什么要做成付费产品呢?原因很简单,因为这又不是做公益,对吧,收点钱当作补贴公司的服务器支出了。

我把这个产品命名为「押韵灵感」,希望给人带来创作时候的灵感。上线之后,流量增长的很快

8月16号上线,上线之后很快上涨到最高日600UV左右的流量,然后稳定在500左右,并慢慢稳定增长。

与此同时,付费数据也比较稳定。

在Growth Hacker上面,我做了如下的设定:

很多创作歌手通过这个工具加了我的微信,成了我的朋友,他们也非常感谢我提供了这样一个工具,帮助他们切实提高了创作效率。当然,不得不提的是其中一个付费用户,具体是谁我就不说了,你们可以猜猜

我大概花了2个小时处理数据,4个小时搭建网站,一共花了三天,每天两个小时。虽然我现在不再花时间在这个项目上,但它还在运行,然而国内押韵的市场确实太小众了,目前的押韵灵感的用户已经基本上处于饱和状态,收入也比较稳定。这笔收入通过微信支付会直接进入公司账户,并自动支付服务器费用,通过这个项目,我可以很高兴的假装我们的服务器是不要钱的。

这个经验告诉了我们什么呢?时至今日,发掘新需求是一项了不起的本事,即使再小众的需求,只要是一部分人的刚需,那也是有价值的。当然,后面的执行也要跟上,不然,一个好需求白白浪费掉,这真是一件让人心痛的事情。

希望我的经历可以让你珍惜每个曾经在你的脑子里闪过光的瞬间,哪怕万中无一,但也许,它可以变成美好的东西,给世界带来一些价值。

python3.x 如何获取一个汉子的全拼

用pip 安装 :

pip install pypinyin

例子:

from pypinyin import pinyin, lazy_pinyin

import pypinyin

print(lazy_pinyin('中心'))

输出:

['zhong', 'xin']

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。