Microsoft Custom Translator Text JA->EN 的预处理训练数据？（标记化，小写）

Pre-processing training data for Microsoft Custom Translator Text JA->EN? (tokenization, lowercase)

microsoft-translator

我正在从用于日语 (JA) 到英语 (EN) 翻译的 Microsoft Translator Text 中的训练集创建自定义模型。训练数据是否应该标记化，是否最好全部小写？

日语中的引号（「」和『』）与英语不同。在 JA 训练数据中，这些应该被标记化（由 space 分隔）吗？在并行的 EN 训练数据中，应该使用 EN 引号 ("") 还是 JA 引号？

除此之外，是否需要任何其他预处理，例如将文本转换为全部小写？部署时模型返回的文本大小写无关紧要。

保留训练 material，就像您将其呈现给人类 reader 一样，大小写和标点符号保持不变。翻译中的大小写和标点符号很重要，它是引擎接收的相关信号。没有理由应用您自己的标记化，它会干扰系统的标记化。最好的训练 material 是句子或句段对齐的，就像您在从 TM 导出的 TMX 或 XLIFF 中得到它一样。

Microsoft Custom Translator Text JA->EN 的预处理训练数据？ （标记化，小写）

Pre-processing training data for Microsoft Custom Translator Text JA->EN? (tokenization, lowercase)

microsoft-translator

Microsoft Custom Translator Text JA->EN 的预处理训练数据？（标记化，小写）