|
||||||||||||||||||||||||
没有能出席近期在美国召开的第6届机译峰会(MT SUMMIT VI, 10. 29 ~ 11.1, 1997)是个遗憾。 只有好好的读读论文集,并通过e-mail跟一些朋友请教和 讨论。这届会议的主题是“机器翻译的过去,现在,未来”,重要内容之一是庆祝机器翻译50周年。特别难得的是大会请到了多位机器翻译的先驱者,如机译研究 的倡导者Andrew Booth,以及著名的机译系统的创建者,如SYSTRAN的Peter Toma,METAL的Lehmann等。他们谈到了当年的艰辛,也披露了一些鲜为人知的有趣的 事情。 1. 机器翻译研究的突破点 谈到理论或技术的突破点,有人可能会想到诸如“基于规则”的或“语言学方法”的,“基于语料库”或“语料和统计方法”的等等,或者“经验主义”的, “理性主义”的等等。九十年代初期,在机译领域和在自然语言处理界的其他领域一样,它们的确曾经引起过一场争论。但人们很快地就认识到语言学方法和语料 和统计方法相结合比相对立更好[Somers,97]。我们所要讨论的突破点,是指另外那些可能引起技术变革的关键问题。 1.1 从单句处理走向句群处理 迄今为止,绝大多数的实用型机译系统都是以一个句子为其加工单位的。也就是说它们的分析和生成都仅仅局限在一个孤立的句子范围内。所谓的上下文也 就是这个孤立的句子而不是一个段落或若干个连贯的句子。这样狭窄的上下文很难给分析,即便是句法分析,提供较充足的信息,从而保证分析的正确性。机译 系统的翻译质量的低劣多数是由于分析失败或歧义判别的错误造成的。例如:
又如:
新一代机器翻译将采取句群处理。所谓“句群”,我们指的是一个完整的段落或者一个段落内若干个连贯的句子,总之是超过一个句子。句群处理绝不是处理 句子数量的简单的增加。句群处理的本质是使机器翻译基于文本理解。这里至少有两个必须面对的问题。 第一,选取句群的大小。一般地说一个包含6~8个句子的完整的自然段落是理想的。并不是句群愈大愈好。段落太大,前后的相关性可能很低。分析时相关信息 的可靠性也将很低。这样一来可能反而造成误导。另一方面,如果句群太小,即便是一个自然段落,也因为相关信息不够而不很理想。 第二,构筑句群语言模型。传统的机译系统在分析时求解的是一个句子的句法树。即便是同一段落的若干句子,它们的句法树之间也没有建立起任何联系。 多个句子之间要建立的不是传统的句法树,而应该是语义网。这就是我们所说的要构筑句群语言模型。 如上所述,与当今的机译系统相比,新一代的系统的分析深度将有很大的不同。这里,句群语义网将取代单句的句法树[Nagao, 97]。迄今为止,分析中的 一些典型的难题如指代,省略等等的解决从根本上都要依赖于语义的相关性。深度分析和句群处理是相互依赖,相互作用的。少了句群这样大的上下文,深度 分析将无所依据;同时不进行深度分析,句群处理也没有实际意义。 1.2 新的知识系统 新一代的机器翻译所采用的知识系统将包含什么,有什么特点?众所周知,翻译至少需要两方面知识,一是语言文字的知识,二是世界知识,其中包括常识 和专业知识。这对于人工翻译是如此,对于机器翻译也应是如此。但传统的机译系统的世界知识是非常有限的,如果不是完全没有的话。指望这样的机译系统能 给出高质量的译文,甚至还能翻译各种专业的,各种文体的文本,实际上是很不现实的,因为即便是人工翻译也是做不到的。
我们注意到近年来有许多学者或学术机构已开始进行这方面的工作[黄曾阳,97,Miller, et al, 90]。其中有一些虽然还不能算是真正的知识库,或还只是某种 语义词典,如义类词典(thesaurus),但可以看得出人们在朝着同一个方向努力,至少人们意识到应该加强知识库的建设。某些现有的系统也在大力地发展原有 的词典,大大地增加其知识的含量[Gerber & Yang, 97]。 1.3 译文生成的改进 机器翻译研究人员注意到现有的机译系统的另一个重要缺陷是它们的译文无法摆脱源语的语法的束缚[Nagao ,97, Chang, 97],因此很难生成自然的或地道的 译文。如何得到地道的译文将是新一代的机译研究的又一个新突破点。如何才能达到这一目标呢?现在可以预测的途径有三种。 第一,建立更大规模的包含大量例子的双语语料库(translation memory)。这对于某些特定的语言环境是非常有效而且也是必须的。这样的例子我们不难从各 种各样的标识的翻译中找到,如,“右侧通行”,“click here”,“no smoking”等等。 第二,设计一种固定的译文模板。我们正在研究针对每一个汉语动词设计一套固定的,包含若干角色槽(role slot)的语句模板,如,汉语动词“买”,有这样 的角色槽(role slot)的语句模板: “施事--(花了)代价-(给) 受益者 - (买了)领有物”= 施事 (bought) 受益者 领有物for 代价 这里,“施事”,“代价”,“受益者”,“领有物”是角色。机译系统的分析的主要任务是装填固定模板所规定的各个槽。一旦某个模板规定的角色已经得 到,便可以按固定的语句模板生成译文。由于两种语言已严格地对应好了,而且译文也是要严格地装在固定的句套里的,所以有可能较好地摆脱源语的束缚。 这种方法的缺点是源语中的有一些可能被略去而造成漏译。这种方法对于开发用于网上浏览的机译系统会比较好,尤其是汉外机译系统。
第三,建立在句群处理的文本理解的基础上的高质量译文生成。这里同样需要某种固定的译文模板,只不过这样的模板所依据的不仅仅是单个的词,而是一个 故事。其实这类的研究若干年前就有人做过探索,虽然语境相当局限,如交通事故等。 2. 开发中的值得注意的趋势 随着计算机硬件以及与语言处理相关的软件平台的高速发展,也由于机器翻译自身技术的不断进步,机器翻译已开始走向产业化。因此未来机译产品的某些发展 趋势应该引起我们关注。 2.1 领域的专业化 现有的大型机译系统一般都包含多部专业技术词典,虽然其它部分都是共有的,却号称可以翻译多种专业领域的文本,不同的领域采用不同的专业词典就是了。 我们把这样的系统不妨叫做“百搭系统”(实际上是“粗放系统”)。人工翻译也不可能有百搭的翻译大师。没有人会是万事通。每个人的知识结构都是有限 的。既然人都做不到,又如何能指望现有的机译系统做到呢?现有的这种“百搭系统”,是不得已而为之的产物,绝非人们理想的产品。它在未来将会让位给 真正的专业化系统,例如汽车专业机译系统,航空专业机译系统,(医学)外科专业机译系统等等。专业化系统与“百搭系统”明显不同之处在于它们有着不 同的知识结构。 2.2 应用的多样化 应用面向的多样化将是未来发展的又一个趋势。因特网的出现在多大的范围和多么深远的程度上影响着人类社会,现在还不容易确切地估计。信息社会的到来 使克服语言障碍的需求变得更加迫切。近几年各种具有翻译功能的浏览器和网上在线的翻译系统真可谓如雨后春笋。它们有的是在线的词典,为用户提供一种 随机捕捉词语的功能。有的则是提供在线的全文翻译,其中有的是嵌入某个搜索引擎,如SYSTRAN在1997年12月推出了AltaVista/SYSTRAN网上多语种翻译系统。 如你有兴趣的话,可以试试[babelfish]。也有的机器翻译机构在网上提供收费的远程翻译服务,如每个词收0.01美元。网上在线翻译系统面临着更严峻的考验。 它们更难应付网上的五花八门的语言文字。如果质量太糟,还不如只提供词典功能呢。 2.3 开发周期的缩短 与前一个十年相比较机译系统的开发周期现在已明显缩短了。这也是研究人员和开发商应该注意的。以我国为例,我国第一个商品化机译系统从研究到推出经历 了十一年,而且推出时该系统还是很幼稚的。开发周期的缩短主要原因是硬件环境的极大改观,以及经验与信息的积累和交流加快。在知识密集特别是知识工程 领域中,长期以来重复劳动的情况是很普遍的,它严重地影响了研究的速度。如今因特网的出现更加有力地推动了技术与信息的交流与共享。在因特网上人们为 科学研究可以几乎免费地得到各种各样的词典,语料库,甚至分析引擎。这一定会大大加快实验的进度。我们预料在自然语言处理领域将很快推出各种功能组件, 如句法词典,语义词典,分词软件,同形词判别软件,分析引擎,词义歧义消除软件等等。开发一个系统可以购买不同的组件进行组装,修订和调试,而无须一 切都要自己来,一切都从零开始。实际上基于语料库的方法正好可以满足这种要求。大家来共建语料库,大家也共享语料库。日本各有关公司通过亚太机译协会 推动不同的机译系统的用户词典的共建共享的做法[kamei,97]很值得学习。 参考文献 Chang, Jing-shin, Keh-yih Su (1997) Corpus-based Statistis-oriented (CBSO) Machine Translation Researches in *, MT Summit VI Proceedings |