Python英式英语和美式英语的NLP区别

Python NLP differentiation of British English and American English

目前我正在使用 nlp 和 python 进行一个项目。我有内容,需要找到语言。我正在使用 spacy 来检测语言。图书馆仅提供英语语言。我需要找出它是英式英语还是美式英语?有什么建议吗?

我尝试使用 Spacy、NLTK、lang-detect。但是这个图书馆只提供英文。但我需要在英国显示为 en-GB,在美国显示为 en-US。

您可以训练自己的模型。许多关于英语的地理特定数据 collected by University of Leipzig, but it does not include US English. American National Corpus 应该是您可以使用的免费子集。

流行的语言库 langid.py 允许训练您自己的模型。他们有一个很好的 tutorial on github。他们的模型基于字符 tri-gram 频率,在这种情况下这可能不是足够独特的统计数据。

另一种选择是使用 Pytorch 和 transormers 库在 BERT 之上训练分类器。这肯定会得到很好的结果,但如果你没有深度学习经验,这对你来说实际上可能需要很多工作。