微软翻译在翻译中添加额外的单词
Microsoft Translate Adding Extra Words To Translation
我正在尝试将英语翻译成威尔士语。我有一个包含 3032 个句子的数据集,我知道它低于建议的 10000 个限制,但问题是随机单词被添加到句子中或在翻译结束时添加。
使用我拥有的数据集,我得到的 BLEU 分数为 94.25。
Image of Translation Differences
我附上了四个示例,其中在整个表单中添加了额外的单词。数据集中的任何一点都没有匹配任何这些格式的单词重复,并且翻译中没有尾随空格,这可以解释为什么 "yn" 特别是作为一个新句子出现。
有什么方法可以去除这些错误的多余单词或提高翻译的准确性吗?将句子总数增加到10000多条是一个非常大的任务,如果系统仍然有很高的返回随机词的机会,那将是一项艰巨的任务。
我还向 Microsoft 提出了这个支持请求。他们说这个问题归结为使用包含动词作为翻译一部分的字典。
从那以后,我尝试使用英国英语作为翻译的基础 - 一个以前无法构建的选项 - 并且使用相同的数据集,BLEU 分数为 93.24,但多余的单词已经消失。
我的问题已经解决,现在要解决错误的翻译问题。英语到威尔士语的翻译似乎有错误。
我正在尝试将英语翻译成威尔士语。我有一个包含 3032 个句子的数据集,我知道它低于建议的 10000 个限制,但问题是随机单词被添加到句子中或在翻译结束时添加。
使用我拥有的数据集,我得到的 BLEU 分数为 94.25。
Image of Translation Differences
我附上了四个示例,其中在整个表单中添加了额外的单词。数据集中的任何一点都没有匹配任何这些格式的单词重复,并且翻译中没有尾随空格,这可以解释为什么 "yn" 特别是作为一个新句子出现。
有什么方法可以去除这些错误的多余单词或提高翻译的准确性吗?将句子总数增加到10000多条是一个非常大的任务,如果系统仍然有很高的返回随机词的机会,那将是一项艰巨的任务。
我还向 Microsoft 提出了这个支持请求。他们说这个问题归结为使用包含动词作为翻译一部分的字典。
从那以后,我尝试使用英国英语作为翻译的基础 - 一个以前无法构建的选项 - 并且使用相同的数据集,BLEU 分数为 93.24,但多余的单词已经消失。
我的问题已经解决,现在要解决错误的翻译问题。英语到威尔士语的翻译似乎有错误。