提取具有特定方言的推文的最有效方法是什么？

What is the most efficient way to extract tweets that has certain dialect?

我在做阿拉伯语方言的文本分类，需要收集数据。所以我正在使用 Twitter API 来做到这一点。

但是，问题是：

我需要找到具有相同方言的推文。

我的一个解决方案是：

是根据某些方言只有一种关键词收集推文

该解决方案的一个问题是：

我测试数据的时候，当然准确率会很高。因为测试数据将包含我用来收集数据集的那些关键字。

我在找什么

难道没有另一种方法可以避免这种偏见吗？

请注意，这是一个针对特定代码获取建议的平台，而不是讨论方法论的平台。

也就是说，您可以手动收集来自该特定方言的数据并收集其他推文，然后构建一个分类器来预测推文属于哪个组。