Introduction
在国内,随着网络技术的越来越发达与普遍,越来越多的外国影视作品进入群众的视野之中,特别是近些年来美剧与日本动漫在国内的蓬勃发展,限于语言障碍, 使得对这些作品的翻译成了一个急切的需求。 因此,大量的字幕工作者由于兴趣爱好,结成团体,共同完成影视作品的翻译工作,成为一个字幕小组。
字幕组中有着明确的分工,有专门负责翻译工作的翻译人员,也有很少被人知道的是做字幕对轴工作的组员们。因为翻译出来之后仅仅是文本的内容,并没有跟视频文件进行匹配,字幕组的成员们往往需要进行非常细致的比对调整,才能使得最终观众们欣赏到拥有高质量的翻译内容,并且与原视频内容配合得天衣无缝的字幕。然而对于字幕的对轴工作会占用字幕组成员非常多的时间,而且这件事情相比翻译实在是没有什么技术含量,对于字幕组这些无偿造福人类的同学们来说花费正常的学习生活时间做轴是非常不值当的。我们小组觉得如果有这样一个自动给字幕对轴的软件会给字幕组带来很大的方便。大大提高字幕组的生产效率,让广大美剧、动漫迷们更早的看到期待的作品。
The first vision of the Autosub
下面附上我们的测试软件和测试的视频片断。
链接如下:
http://kuai.xunlei.com/d/SQTNAQQCFTYH
我们进行了第一版的软件制作, 由于算法的不够成熟,目前的版本只能比较好的适用于类似于lecture这样噪声干扰比较小的环境。
但是,我们坚信Autosub的提升空间是很大的,故几套可靠的升级方案也都列入了工作计划,而且自动对轴软件的市场需求潜力也会刺激我们从用户需求出发不断持续更新版本,希望您能一直关注并陪伴着我们和Autosub一起成长。
附件中是我们目前的软件版本,由于UI与播放器模块和频谱模块上还在进行修改与整合,所以目前仅仅是基于命令行的测试版本,但是下一版将会给您带来完全不一样的视觉体验,下面列举一两个预期的亮点,还有更多惊喜让我们共同期待
亮点一:整合的UI提供了可视化的界面,贴近用户操作
亮点二:频谱模块打破了用户听觉与音频本身波形的障碍,使得用户能从频谱出发手动便捷地微调字幕时间轴,实现人机交互
Usage introduction
[Part 1]
我们的重点在于对轴上,由于是采用的基于能量的算法,对于像lecture这样的背景噪声比较小的视频文件,效果还算不错,在后期加入频谱界面用户微调功能后,应该能够满足基本的需求,对于其他的背景噪声较大的情况,我们的算法在后期有待于进一步的改进和提高。
对于语音识别和机器翻译调用了外部的api,可以支持此功能,但是众所周知,目前的这两项技术还不够完善,会有一些不尽如人意的地方。
命令行测试版本中使用的功能参数说明:
(1)命令格式:autosub [options] <input video>
例:autosub –r ja –t zh-cn test.mp4
(2)参数Option:
-r <language code> :
enable speech recognition and set source language to <language code>
支持语音识别功能, 并且设置原语言的各类为<language code> 所指示的种类。
-t<language code>:
enable translation and set target language to <language code>
在已经识别了语音的基础上,可以进行简单的机器翻译成目标语言<language code>
-o <output>.srt:
Specify output subtitle file name(default: the same as the input name)
更改输出的字幕文件名为<output>.srt, 在默认情况下为原输入的视频文件名
目标语言代号Language codes:
Chinese: zh-cn
English: en
Japanese:ja
[Part 2]
具体用法说明:
第一步:用命令行打开autosub所在的根目录运行。(可以直接在根目录路径上输入cmd,然后enter):
在根目录输入cmd
Enter后出现界面如下
第二步:执行应用程序划分时间轴。
因为Autosub在划分时间轴的基础上提供了多种拓展功能供用户选择,依照功能不同用户的操作也有差异:
(1) 只分割时间轴
输入示例:autosub test.mp4
输出界面如下:
输出为划分的时间轴,它是由数段分割出的时间区间构成,以其中一个为例说明:
sub (29.025, 31.355)
7 7
其中29.025和31.355代表识别出这一段话的时间区间,单位为秒
数字7为编号,代表第7句话。
执行完程序后,就会自动生成原视频中的时间段序号(代表了被划分的时间轴), 加载后播放原视频,效果如下:
加载之前
加载之后
(2) 添加语音识别的功能
输入示例:autosub –r en test.mp4
执行完程序后,在划分时间轴时,采用了语音识别的外部API,初步识别出视频中的声音,在dos界面下的每一段时间区间内都显示了其语音识别的结果:
最后生成了原语言的字幕文件,加载后播放原视频,效果如下:
加载之前
加载之后
(3) 添加语音识别,并进行机器翻译
输入示例:autosub –r en –t zh-cn test.mp4
执行完程序后,在划分时间轴时,采用了语音识别和机器翻译的多重外部API,初步识别并翻译出视频中的声音,在dos界面下的每一段时间区间内都显示了其语
音识别翻译的结果:
最后生成了翻译好的字幕文件,加载后播放原视频,效果如下:
加载之前
加载之后