然后把音频转为文字,如何将视频中的音频转化成文字

视频中的音频如何转换成文字前言

前段时间我打算做B站伶俐的中心的视频笔记，突然想到我是否可以用工具将视频的音频转换成文字，或者将视频中的字幕用OCR转化为文字。这样我就不要干巴巴敲内容了。不过因为伶俐的中心的视频有BGM，我就没去尝试，但是我这两天写了几篇他的视频笔记。发现还是弄一下这个比较好。能提高我的效率。

我记得微信可以语音转文字，我觉得市场上应该有这个技术，可以在线转文字出来。今天尝试一下。

文章目录视频中的音频如何转换成文字前言信息搜索过程通过百度信息一：腾讯云语音识别信息二：迅捷录音转文字通过知乎通过GITHub 将视频的音频转换为文字失败

信息搜索过程通过百度

百度一下：视频中的音频如何转换成文字

信息一：腾讯云语音识别

然后发现腾讯云智能录音/音频/语音识别_超高识别准确率说：

腾讯云语音识别（Automatic Speech Recognition，ASR）为企业提供极具性价比的语音识别服务。被微信、王者荣耀、腾讯视频等大量内部业务使用，外部落地录音质检、会议实时转写、法庭/审讯记录、语音输入法等多个场景；开放实时语音识别、一句话识别和录音文件识别三种服务形式，满足不同类型企业的需求。

要钱，pass掉。

信息二：迅捷录音转文字

迅捷文字语音转换器

看官网介绍。好牛逼的感觉。免费下载（莫非是免费下载，付费使用），支持语音识别、语音合成。

天下没有免费的午餐，我总觉得有坑在等着我。不知道效果如何。

尝试体验：

果然。

看了广告信不得啊。没有达到我的目标，所以我继续筛选信息。

通过知乎

资料来源于：怎样提取视频中的音频转文字？

一个推荐是使用云猫转码

也不符合我的需求。有钱真好。直接付费最香。奈何没钱。

一个是介绍原理

先将mp4视频文件，通过ffmpeg工具库，批量转换为pcm音频文件（语音识别服务仅支持该格式）基于百度云的技术，将pcm文件上传到百度对象存储BOS中，并将日志等记录到本地mysql数据库。pcm文件上传完毕后，调用免费的语音识别（录音转写）服务，创建离线录音转写任务。查询转写成功的任务，并将相关转写结果存储到本地mysql库中。基于docx4j库，将数据库中的录音转写结果，导出为规范化的word文档。

第一步应该可以用PR实现。调用语言识别服务，我找找阿里云看看。

一个推荐

视频编辑软件或者播放器工具提取音频文件

再用类似的音转文软件或者网站转

大概用途是做字幕之类吧

音视频转文字

没试过，但是感觉太慢了。

通过GITHub

字幕组机翻小助手

字幕组机翻小助手 -

【功能1：翻译字幕文件】 .srt .ass .vtt

【功能2：语音转文字】（拖入视频或音频识别出字幕）

(最新版 v3.6.0 更新时间2020年10月13号) 可配置12家翻译服务商，如谷歌,百度,腾讯,彩云,IBM,Azure,Amazon等

（可配置6家语音服务商：阿里云，讯飞，腾讯云，IBM，Azure，Amazon ）

优点：

可以用多家服务商，自己配 API Key 用自己账户的免费额度，比如腾讯每月有500万字符的免费翻译额度，IBM 有500分钟的语音转文字免费额度

如果使用语言转文字

推荐先用阿里云，因为每天2个小时的免费额度（支持8种语言，包括中文，英文，日语，粤语，阿拉伯语等。不包括法语，德语，韩语，泰语，俄罗斯语）（截止至2020年8月31号）讯飞的免费额度是5小时（一次性）不过只支持中文和英文两种语言不推荐腾讯云，字幕断句有问题（一句一大段文字）如果只是想输出纯文字，那问题不大，但如果需要字幕，那质量很差，一句话很多个字，在屏幕上会显示4-5行，占满半个屏幕，影响观看，如果自己去调整时间轴又比较费时。简而言之：如果要识别中文，推荐阿里云，讯飞，腾讯云（按这个顺序）

这个项目良心到爆炸。我试一试。

将视频的音频转换为文字

信息搜集后，我决定使用Translate-Subtitle-File

有117M，但是我电脑居然四五秒就下好了？？？？

教程文档：Tern-字幕组机翻小助手

然后我将下载好的视频拖入这个软件中。居然没有阿里云的。国外的懒得去弄。

然后我打开教程，发现教程中明明可以。

既然此路不通。我就直接看看阿里云的OSS

对象云存储。

智能语音交互

失败

不了，浪费太多时间在这什么了，下次再弄。

更新地址：GitHub（https://blog.csdn.net/weixin_42875245）

更多内容请关注：CSDN、GitHub、掘金