提取具有特定方言的推文的最有效方法是什么?

What is the most efficient way to extract tweets that has certain dialect?

我在做阿拉伯语方言的文本分类,需要收集数据。所以我正在使用 Twitter API 来做到这一点。

但是,问题是:

我需要找到具有相同方言的推文。

我的一个解决方案是:

是根据某些方言只有一种关键词收集推文

该解决方案的一个问题是:

我测试数据的时候,当然准确率会很高。因为测试数据将包含我用来收集数据集的那些关键字。

我在找什么

难道没有另一种方法可以避免这种偏见吗?

请注意,这是一个针对特定代码获取建议的平台,而不是讨论方法论的平台。

也就是说,您可以手动收集来自该特定方言的数据并收集其他推文,然后构建一个分类器来预测推文属于哪个组。