上海专业翻译公司
立即在线咨询
欢迎资深译员加项目QQ
JS导航效果
|
|
|
无监督机器翻译:一种提供快速准确多语种翻译的新尝试
发起人:eging3  回复数:2  浏览数:9694  最后更新:2022/9/28 19:29:36 by nihaota

发表新帖  帖子排序:
2019/6/27 10:35:52
eging3





角  色:管理员
发 帖 数:1914
注册时间:2015/7/22
无监督机器翻译:一种提供快速准确多语种翻译的新尝试
无监督机器翻译:一种提供快速准确多语种翻译的新尝试Facebook研究人员提出一种“不需要任何翻译资源的MT模型”,也即“无监督机器翻译”(unsupervised machine translation),用机器翻译常用的基准BLEU衡量,Facebook的新方法实现了超过10分的改善。对于机器翻译而言,这是一个非常重要的发现,特别是小语种而言,有些训练数据很少,有些甚至连训练数据都没有。而Facebook提出的这种无监督机器翻译,能够初步解决这一问题,比如在乌尔都语(注释:巴基斯坦的国语,属于印欧语系印度-伊朗语族的印度-雅利安语支;是全球使用人数排名第20的语言)和英语之间进行自动翻译——不再需要任何翻译好的语言对。无监督机器翻译的方法,首先是让系统学习双语词典,将一个词与其他语言对应的多种翻译联系起来。让系统首先为每种语言中的每个单词学习词嵌入,也即单词的向量表示。然后,系统会训练词嵌入,根据其上下文(例如,给定单词前后的各5个单词)来预测给定单词周围的单词。例如,与“kitty”(小猫)这个词距离最近的是“cat”(猫),并且“kitty”这个词与“animal”(动物)之间的距离要远远小于它与“rocket”(火箭)这个词的距离。换句话说,“kitty”很少出现在有“rocket”的上下文里。此外,不同语言中意思相近的词汇具有相似的邻域结构,因为世界各地的人们生活在相同的物理环境中。例如,英语中“cat”和“furry”(毛茸茸)之间的关系,类似于它们在西班牙语中对应的翻译“gato”和“peludo”,因为这些单词的出现频率及其上下文是非常相似的。鉴于这些相似之处,Facebook的研究人员提出了一种方法,让系统通过对抗训练等方法,学习将一种语言的词嵌入结构进行旋转,从而匹配另一种语言的词嵌入结构。有了这些信息以后,他们就可以推断出一个相当准确的双语词典,无需任何已经翻译好的语句,并且基本上可以做到逐字翻译。当逐字翻译实现以后,接下来就是词组乃至句子的翻译了。当然,逐字翻译的结果是无法直接用在句子翻译上的。于是,Facebook的研究人员又使用了一种方法,他们训练了一个单语种语言模型,对逐字翻译系统给出的结果打分,从而尽可能排除不符合语法规则或有语病的句子。这个单语模型比较好获得,只要有小语种(比如乌尔都语)的大量单语数据集就可以。英语的单语模型则更好构建了。通过使用单语模型对逐字翻译模型进行优化,就得到了一个比较原始的机器翻译系统。接下来,Facebook研究人员再将这些机器翻译所得到的句子(从乌尔都语到英语的翻译)作为ground truth,用于训练从英语到乌尔都语的机器翻译。但是由于第一个系统(从乌尔都语到英语的原始机器翻译系统)的翻译错误,作为训练数据输入的英语句子质量并不高,因此第二个反向翻译系统输出的乌尔都语翻译效果可想而知。不过,有了刚才训练好的那个乌尔都语单语模型,就可以用它来对第二个反向翻译系统输出的乌尔都语译文进行校正,从而不断优化、迭代,逐渐完善第二个反向翻译系统。在Facebook的这项工作中,他们确定了三个步骤——词到词的翻译(word-by-word initialization)、语言建模和反向翻译——作为无监督机器翻译的重要原则。有了这些原则后,就可以推导出各种模型。Facebook研究人员用其构建了两种不同的模型,以解决无监督机器翻译的目标。第一个是无监督神经模型,其结果比逐字翻译更流畅,但却没有产生研究人员想要的质量翻译。但是,这个无监督神经模型的翻译结果可以用作反向翻译的训练数据。第二个,Facebook的研究人员上述原则应用于基于经典计数统计方法的另一个机器翻译模型,叫做“基于短语的机器翻译”(phrase-based MT)。最后,他们将两种模型结合起来,得到一个既流畅又准确翻译的模型。其方法是,从一个训练好的神经模型开始,用基于短语的模型生成的反向翻译句子,对这个神经模型进行训练。从短期来看,这肯定有助于我们翻译更多的语言并提高训练数据少的语言的翻译质量。但是,从这种新方法和基本原则中获得的知识,可以远远超出机器翻译的范畴。这种新方法为更快、更准确地翻译更多的语言打开了一扇门。同时,Facebook的研究人员认为,这项研究有可能应用于任何领域的无监督学习。








专业翻译公司 http://www.e-ging.com

2020/3/16 13:29:36
patebeng0





角  色:普通会员
发 帖 数:1
注册时间:2020/3/16
2022/9/28 19:29:38
nihaota





角  色:普通会员
发 帖 数:10863
注册时间:2022/3/19
用户在线信息
当前查看此主题的会员: 2 人。其中注册用户 0 人,访客 2 人。


译境翻译公司BBS|上海翻译论坛|同声传译交流论坛|自由译员社区|外籍母语翻译交流|寻找上海翻译工作|兼职翻译招聘|笔译口译项目发布| 上海翻译资源| 小语种翻译资源| 证件翻译资源| 留学文书翻译模板| 翻译语料术语库| CAT翻译软件|Trados技术交流 英语高级翻译群 德语高级翻译群 法语高级翻译群 俄语高级翻译交流群 日语高级翻译交流 阿拉伯语高级翻译群 翻译公司网络营销合作