YouTube自动生成字幕

2020/03/19

共 651 字

约 2 分钟

归档：技术

奇怪的技术又增加了

今天有这么一个需求，想把小朋友的一个英语广播的音频转换成文字。心想着语音识别技术这些年都跟AI搭在一起了，有时候都觉得输入法的识别比我的耳朵还灵敏，应该有好用的音频文件转文字的工具吧，于是开始了一下午的探索。

现在我们有一个录音文件，10.69MB，11min20s。需求非常简单，拖音频过去，吐文字给我。

先看国内出名的讯飞，意料之中的需要付费。然后找到了IBM Watson,能区分不同的Speaker，但是有一个很麻烦的地方，实际上跟输入法的实时翻译没什么区别，一边播放一边出字幕，也就是说需要等待他播放完才能拿到结果，中途也不能退出去，显然不是我想要的。

接着找到了Speechnotes，一个chrome应用，识别效果确实不错，但他完完全全就是输入法的识别操作，太不方便了。

果然，尽管语音识别技术到了可以满足日常使用的水平，但扔音频进去吐文字出来这样的服务，还是需要付费的多。不好找，因为这次的软件算是小众，甚至说没有固定的名字，不能在软件站点上面搜。一筹莫展的时候，看到知乎上的一个回答，Youtube有自动识别服务。一言点醒了我，没错，YouTube自带字幕生成功能，并且这个字幕是有办法下载的。方法有了，我们来上传。

然而事情没那么简单。YouTube只能上传视频，不能单单上传音频，所以我还得先整个黑屏的视频出来，电脑上没有PR，格式工厂试试吧，失败。想起了PS可以简单地处理视频，生成个黑屏的视频就非常方便了。

Youtube并不支持上传MP3

等待个五分钟，YouTube会自动识别出字幕，而且跟声音同步，这比原本只是想要字幕还要实用。

当然我们可以把字幕下载下来，推荐使用downsub,然后放到potplayer这样的播放器中作为歌词播放，这样需要倒回去听的时候就可以看到实时字幕了。毕竟谷歌家的东西，YouTube对英文的识别还是很不错的。

算是YouTube的一个妙用吧。

potplayer下的播放效果，可以使用中英双字幕

YouTube自动生成字幕

留言