电脑自动字幕生成软件,自动生成字幕文件

2020.05.06 0.5.7a 更新：添加讯飞开放平台语音听写(流式版)WebSocket API支持。添加百度智能云语音识别/极速语音识别API支持。已去除Python 2.7支持。

最近做了个视频教程，大家可以来看看：网易见外用不了，试试这个免费自动字幕生成工具【自动字幕】_哔哩哔哩 (゜-゜)つロ干杯~-bilibiliwww.bilibili.com

看到不少回答autosub的，我就来补充一下，autosub原版的使用体验确实比较糟糕，在原仓库那边收集到不少问题。鉴于原仓库作者无视我的pull request近半年之久，我于是放弃了和原仓库的兼容性开始独立开发。

现在我开发的autosub通过花式拉库，从功能上的改进主要是可以做到使用translate.google.com/translate.google.cn(可直连)的网页翻译对字幕进行免费翻译。其他方面主要则是一些易用性的增强。可以输入字幕仅对字幕进行翻译而不进行语音识别

可以同时输出时间轴(不联网本地处理)，源语言字幕，目标语言字幕，双语字幕等等

可以输出多种字幕格式

中文命令行

windows版无依赖发布包(已包含ffmpeg和ffmpeg-normalize，不需要安装python)

可自定义请求文件(支持Google Cloud Speech-to-Text API，讯飞流式版，百度)

可输出完整语音识别结果，供外部处理，如使用"enable_word_time_offsets":true可以获得有字词时间戳的结果，当然目前autosub自身不支持处理这种结果转换成youtube字幕样式

关于网络连接的问题，目前API依然使用的是google的。最稳定的办法，同样还是推荐在可以连接到google的linux服务器上进行操作。对于翻译的部分，理论上因为发送的都是文本信息，而且我对请求次数也有优化，对带宽的要求不是很大。

主要是语音识别的部分要求比较高，因为API似乎只接受非压缩的音频格式，所以上传时会需要较大的带宽也意味着你的**的带宽需要好一些。最近更新的Cloud Speech-to-Text支持OGG_OPUS格式，可以节省带宽。

其他具体的用法，包括命令行参数什么的，我就不多说了，参阅中文版Readme即可。

另外呼吁大家自觉抵制arctime的使用从违反开源协议的角度讲，arctime底层使用到了ffmpeg，却没有开源，也没有标明，完全违反ffmpeg部分组件所使用的GPL协议。

从营销的角度，以压制分辨率作为高级功能的收费借口，营销态度**不堪。关于如何免费压制出高分辨率/高帧率的带字幕视频，同时保留所有ass的特性(其实在知乎上也有，就是用ffmpeg输出mov视频)，请查看我撰写的教程。

从易用性和功能性的角度讲，arctime完全比不过aegisub，其所独立构筑的所谓生态环境无非是闭源软件的附庸，和ass的兼容性很差。关于aegisub的使用教程，也可以参考我所写的极速入门文章。