YouTube自动生成字幕
奇怪的技术又增加了
今天有这么一个需求,想把小朋友的一个英语广播的音频转换成文字。心想着语音识别技术这些年都跟AI搭在一起了,有时候都觉得输入法的识别比我的耳朵还灵敏,应该有好用的音频文件转文字的工具吧,于是开始了一下午的探索。
现在我们有一个录音文件,10.69MB,11min20s。需求非常简单,拖音频过去,吐文字给我。
先看国内出名的讯飞,意料之中的需要付费。然后找到了IBM Watson,能区分不同的Speaker,但是有一个很麻烦的地方,实际上跟输入法的实时翻译没什么区别,一边播放一边出字幕,也就是说需要等待他播放完才能拿到结果,中途也不能退出去,显然不是我想要的。
接着找到了Speechnotes,一个chrome应用,识别效果确实不错,但他完完全全就是输入法的识别操作,太不方便了。
果然,尽管语音识别技术到了可以满足日常使用的水平,但扔音频进去吐文字出来这样的服务,还是需要付费的多。不好找,因为这次的软件算是小众,甚至说没有固定的名字,不能在软件站点上面搜。一筹莫展的时候,看到知乎上的一个回答,Youtube有自动识别服务。一言点醒了我,没错,YouTube自带字幕生成功能,并且这个字幕是有办法下载的。方法有了,我们来上传。
然而事情没那么简单。YouTube只能上传视频,不能单单上传音频,所以我还得先整个黑屏的视频出来,电脑上没有PR,格式工厂试试吧,失败。想起了PS可以简单地处理视频,生成个黑屏的视频就非常方便了。
Youtube并不支持上传MP3
等待个五分钟,YouTube会自动识别出字幕,而且跟声音同步,这比原本只是想要字幕还要实用。
当然我们可以把字幕下载下来,推荐使用downsub,然后放到potplayer这样的播放器中作为歌词播放,这样需要倒回去听的时候就可以看到实时字幕了。毕竟谷歌家的东西,YouTube对英文的识别还是很不错的。
算是YouTube的一个妙用吧。
potplayer下的播放效果,可以使用中英双字幕
留言