从 Google 获取奇怪的标记翻译成 ~~POS=TRUNC
Getting weird markup from Google translate like ~~POS=TRUNC
我在通过 Java 库翻译 Google 翻译 API 中的短语时突然得到相同的奇怪标记。英语 → 瑞典语的示例包括:
Vector graphics → vektor~~POS=TRUNC grafikk~~POS=HEADCOMP
Javascript → Javascript script~~POS=HEADCOMP
看起来和复合名词处理有关。这是 API 的一项功能,我可以以某种方式停用,还是服务器端的新错误?
它似乎与 Google "translates" 字符串的方式有关,返回统计上最有可能正确的内容。因此,常见的 Unix 命令可能会出现在您的翻译中。
关于该主题的更多讨论:
https://www.reddit.com/r/German/comments/47kfah/thanks_google/
这看起来像是服务器端 t运行slator 中的错误。我也在网站上得到它,https://translate.google.com/#view=home&op=translate&sl=ru&tl=no&text=%D0%9E%D0%B1%D1%89%D0%B5%D0%B6%D0%B8%D1%82%D0%B8%D0%B5 给我 vandrer~~POS=TRUNC
。
在 NLP 中,"POS" 表示词性,"HEADCOMP" 听起来像是名词复合词的中心词,我猜他们截断了非中心词部分化合物(实际上从未变形)。所以 Google T运行slate 泄露了它的一些内部信息。令人惊讶的是,此类标签是 rule-based/knowledge-based 系统的主要内容,而 Google 通常只使用纯机器学习方法,避免硬编码知识。 (一种可能性是他们使用名词复合分析器来扩展他们的训练集(然后他们 运行 机器学习,类似于 Syst运行 & Koehn trained statistical MT on a parallel corpus translated with a rule-based MT system ), 但在训练前清理标签的脚本中有一个错误。)
找出他们使用的系统会很有趣,以防它是一个开源系统,但不幸的是标签实际上是 ungoogleable,因为网络现在充斥着垃圾机器 t运行充满这些标签的预定(和非post编辑的)页面。
我在通过 Java 库翻译 Google 翻译 API 中的短语时突然得到相同的奇怪标记。英语 → 瑞典语的示例包括:
Vector graphics → vektor~~POS=TRUNC grafikk~~POS=HEADCOMP
Javascript → Javascript script~~POS=HEADCOMP
看起来和复合名词处理有关。这是 API 的一项功能,我可以以某种方式停用,还是服务器端的新错误?
它似乎与 Google "translates" 字符串的方式有关,返回统计上最有可能正确的内容。因此,常见的 Unix 命令可能会出现在您的翻译中。
关于该主题的更多讨论: https://www.reddit.com/r/German/comments/47kfah/thanks_google/
这看起来像是服务器端 t运行slator 中的错误。我也在网站上得到它,https://translate.google.com/#view=home&op=translate&sl=ru&tl=no&text=%D0%9E%D0%B1%D1%89%D0%B5%D0%B6%D0%B8%D1%82%D0%B8%D0%B5 给我 vandrer~~POS=TRUNC
。
在 NLP 中,"POS" 表示词性,"HEADCOMP" 听起来像是名词复合词的中心词,我猜他们截断了非中心词部分化合物(实际上从未变形)。所以 Google T运行slate 泄露了它的一些内部信息。令人惊讶的是,此类标签是 rule-based/knowledge-based 系统的主要内容,而 Google 通常只使用纯机器学习方法,避免硬编码知识。 (一种可能性是他们使用名词复合分析器来扩展他们的训练集(然后他们 运行 机器学习,类似于 Syst运行 & Koehn trained statistical MT on a parallel corpus translated with a rule-based MT system ), 但在训练前清理标签的脚本中有一个错误。)
找出他们使用的系统会很有趣,以防它是一个开源系统,但不幸的是标签实际上是 ungoogleable,因为网络现在充斥着垃圾机器 t运行充满这些标签的预定(和非post编辑的)页面。