将 json 数据集翻译成不同的自然语言

Translating a json dataset to different natural language

我有一个非常大的 JSON 英语对话数据集,我想问一下是否有任何工具或方法可以将它们从英语翻译成阿拉伯语?

python 有一个 google 翻译包。 https://pypi.org/project/googletrans/

您可以阅读python中的json文件,然后逐句逐句翻译。如果以后需要,可以将其再次保存为 json.

假设您有一个名为“translate”的函数(使用库的包装函数),它可以将英语中的一个数据点翻译成阿拉伯语。像这样的东西就是你需要的。

with open(data_json_path, 'r') as f:
    data_json = json.load(f)

english_as_list = [sample['text'] for sample in data_json]
arabic = [translate(sample) for sample in english_as_list]