前段时间我打算做B站伶俐的中心的视频笔记,突然想到我是否可以用工具将视频的音频转换成文字,或者将视频中的字幕用OCR转化为文字。这样我就不要干巴巴敲内容了。不过因为伶俐的中心的视频有BGM,我就没去尝试,但是我这两天写了几篇他的视频笔记。发现还是弄一下这个比较好。能提高我的效率。
我记得微信可以语音转文字,我觉得市场上应该有这个技术,可以在线转文字出来。今天尝试一下。
文章目录 视频中的音频如何转换成文字前言信息搜索过程通过百度信息一:腾讯云语音识别信息二:迅捷录音转文字 通过知乎通过GITHub 将视频的音频转换为文字失败
信息搜索过程 通过百度
百度一下:视频中的音频如何转换成文字
信息一:腾讯云语音识别然后发现腾讯云智能录音/音频/语音识别_超高识别准确率说:
腾讯云语音识别(Automatic Speech Recognition,ASR) 为企业提供极具性价比的语音识别服务。被微信、王者荣耀、腾讯视频等大量内部业务使用,外部落地录音质检、会议实时转写、法庭/审讯记录、语音输入法等多个场景;开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型企业的需求。
要钱,pass掉。
信息二:迅捷录音转文字迅捷文字语音转换器
看官网介绍。好牛逼的感觉。免费下载(莫非是免费下载,付费使用),支持语音识别、语音合成。
天下没有免费的午餐,我总觉得有坑在等着我。不知道效果如何。
尝试体验:
果然。
看了广告信不得啊。没有达到我的目标,所以我继续筛选信息。
通过知乎资料来源于:怎样提取视频中的音频转文字?
一个推荐是使用云猫转码
也不符合我的需求。有钱真好。直接付费最香。奈何没钱。
一个是介绍原理
先将mp4视频文件,通过ffmpeg工具库,批量转换为pcm音频文件(语音识别服务仅支持该格式)基于百度云的技术,将pcm文件上传到百度对象存储BOS中,并将日志等记录到本地mysql数据库。pcm文件上传完毕后,调用免费的语音识别(录音转写)服务,创建离线录音转写任务。查询转写成功的任务,并将相关转写结果存储到本地mysql库中。基于docx4j库,将数据库中的录音转写结果,导出为规范化的word文档。第一步应该可以用PR实现。调用语言识别服务,我找找阿里云看看。
一个推荐
视频编辑软件或者播放器工具 提取音频文件
再用类似的音转文软件或者网站转
大概用途是做字幕之类吧
音视频转文字
没试过,但是感觉太慢了。
通过GITHub字幕组机翻小助手
字幕组机翻小助手 -
【功能1:翻译字幕文件】 .srt .ass .vtt
【功能2:语音转文字】(拖入视频或音频识别出字幕)
(最新版 v3.6.0 更新时间2020年10月13号) 可配置12家翻译服务商,如谷歌,百度,腾讯,彩云,IBM,Azure,Amazon等
(可配置6家语音服务商:阿里云,讯飞,腾讯云,IBM,Azure,Amazon )
优点:
可以用多家服务商,自己配 API Key 用自己账户的免费额度,比如腾讯每月有500万字符的免费翻译额度,IBM 有500分钟的语音转文字免费额度如果使用语言转文字
推荐先用阿里云,因为每天2个小时的免费额度 (支持8种语言,包括中文,英文,日语,粤语,阿拉伯语等。不包括法语,德语,韩语,泰语,俄罗斯语)(截止至2020年8月31号)讯飞的免费额度是5小时(一次性) 不过只支持中文和英文两种语言不推荐腾讯云,字幕断句有问题(一句一大段文字)如果只是想输出纯文字,那问题不大,但如果需要字幕,那质量很差,一句话很多个字,在屏幕上会显示4-5行,占满半个屏幕,影响观看,如果自己去调整时间轴又比较费时。简而言之:如果要识别中文,推荐阿里云,讯飞,腾讯云(按这个顺序)这个项目良心到爆炸。我试一试。
将视频的音频转换为文字信息搜集后,我决定使用Translate-Subtitle-File
有117M,但是我电脑居然四五秒就下好了????
教程文档:Tern-字幕组机翻小助手
然后我将下载好的视频拖入这个软件中。居然没有阿里云的。国外的懒得去弄。
然后我打开教程,发现教程中明明可以。
既然此路不通。我就直接看看阿里云的OSS
对象云存储。
智能语音交互
失败不了,浪费太多时间在这什么了,下次再弄。
更新地址:GitHub(https://blog.csdn.net/weixin_42875245)
更多内容请关注:CSDN、GitHub、掘金