Microsoft Custom Translator Text JA->EN 的预处理训练数据? (标记化,小写)
Pre-processing training data for Microsoft Custom Translator Text JA->EN? (tokenization, lowercase)
我正在从用于日语 (JA) 到英语 (EN) 翻译的 Microsoft Translator Text 中的训练集创建自定义模型。训练数据是否应该标记化,是否最好全部小写?
日语中的引号(「」和『』)与英语不同。在 JA 训练数据中,这些应该被标记化(由 space 分隔)吗?在并行的 EN 训练数据中,应该使用 EN 引号 ("") 还是 JA 引号?
除此之外,是否需要任何其他预处理,例如将文本转换为全部小写?部署时模型返回的文本大小写无关紧要。
保留训练 material,就像您将其呈现给人类 reader 一样,大小写和标点符号保持不变。翻译中的大小写和标点符号很重要,它是引擎接收的相关信号。没有理由应用您自己的标记化,它会干扰系统的标记化。
最好的训练 material 是句子或句段对齐的,就像您在从 TM 导出的 TMX 或 XLIFF 中得到它一样。
我正在从用于日语 (JA) 到英语 (EN) 翻译的 Microsoft Translator Text 中的训练集创建自定义模型。训练数据是否应该标记化,是否最好全部小写?
日语中的引号(「」和『』)与英语不同。在 JA 训练数据中,这些应该被标记化(由 space 分隔)吗?在并行的 EN 训练数据中,应该使用 EN 引号 ("") 还是 JA 引号?
除此之外,是否需要任何其他预处理,例如将文本转换为全部小写?部署时模型返回的文本大小写无关紧要。
保留训练 material,就像您将其呈现给人类 reader 一样,大小写和标点符号保持不变。翻译中的大小写和标点符号很重要,它是引擎接收的相关信号。没有理由应用您自己的标记化,它会干扰系统的标记化。 最好的训练 material 是句子或句段对齐的,就像您在从 TM 导出的 TMX 或 XLIFF 中得到它一样。