如何评价Google神经机器翻译（GNMT）系统？

发表时间:2017/07/28 00:00:00 浏览次数:1714

字体大小: 【小】【中】【大】

翻译有纯人工翻译，还有借助电脑的机器辅助翻译（CAT，computer assisted/aided translation），还有传统的机器翻译（MT，machine translation）。
传统的机器翻译据说源于上世纪五六十年代的美国，为了破解苏联的大量俄语文件而研制。它的原理是词汇间的一一对应，可以想见，产出的译文肯定是不通的，或许只能大体看出原文在探讨的主题。这样的翻译模式或者思路，在翻译天气预报这种语汇固定的文本上有一定用处。据说加拿大魁北克地区曾用这种方式播报双语天气预报。
机器辅助翻译是指利用Trados或者wordfast这种工具，它的核心原理在于translation memory，即翻译记忆语料库。软件工具把之前翻译过的或者集中导入的双语语料储存起来，遇到相似程度高的原文时，自动调出之前的译文，译者在其基础上修改，完成最终的译文。其翻译单位为句子。
以上介绍的基于语汇一一对应的机器翻译和基于翻译记忆数据库的CAT，其实代表了实现人工智能的两个思路。我自己只是搞翻译的，对于人工智能不太懂，但机器/电脑翻译属于人工智能的范畴。人工智能的关键在于教会机器你想让它认知的东西，对于如何教，有两个思路。
举一个我在TED演讲中听过的一个例子。
演讲者从事的是图像识别软件的开发。一开始采取的套路是通过描述画面来教会机器识别事物。比如给“猫”设置“圆脸、尖耳朵、长尾巴”等参数，但是效果很差，机器识别了站立着的猫，就识别不了坐着的猫。
后来研发者换了一个思路，模拟人类孩童是如何认识猫的——见的多了，就知道这样的是猫了（孩子并不会去分析原来圆脸、尖耳朵、长尾巴的才是猫）。于是将大量猫咪的图片存入机器，并告诉它这是“猫”，后来机器遇到类似的图片，就能识别出是猫。已有数据库越大，机器识别得就越准确。
个人认为质量较高的机器/电脑翻译的实现，也要采取这后一种思路，即基于大量双语语料的记忆和学习——让机器记住什么样的话是什么意思，而不是将语句分解为单个词汇再去找它们在另一个语言中的对应。
根源还是语言的复杂性，无论是哪两种语言之间，都不像二进制和十进制之间那样可以实现一一对应，所以第一种思路的发展前途已经很局限。而第二个思路或许就是以后的方向，互联网实现的大量语料共享也为它的发展提供了可能。
------------------------------------
关于如何看待机器/线上翻译的进步：

虽然我自己是个翻译匠，而且厌恶把线上翻译随便改改交差的译员，但是对机器/电脑/线上翻译本身心存亲切——它毕竟不是人，不要笑话它。
它对于译者也有用处，对于某些语汇（不是整句整段），它给的译文由于基于大量现有语料，往往确实是业内人士用的比较多的说法。
所以大家不要看到机器翻译产生可笑译文就拿来调侃，该被调侃的是那些敢用这些译文的人。

而且，没有必要恐慌自己会被取代（前提是你的水平远高于机器）；机器差的还比较远——如果你知道语言可以美到、精到、妙到什么程度，如果你明白很多时候它就是人的灵光一现的、独一无二的、偶然的产物，就不会怀疑这一点。

上一篇：看外国文学时，怎样选择好的译本？

下一篇：看美剧、英剧学英语有什么有效的方法吗？