WikiCorpus 是否适用于阿拉伯语维基百科转储?

Does WikiCorpus from gensim library works on Arabic Wikipedia dump?

我在阿拉伯语维基百科转储中看到一段使用 Wikicorpus 的代码,我知道该过程需要很长时间才能执行,我还搜索了执行它时收到的警告:

(UserWarning: detected Windows; aliasing chunkize to chunkize_serial
warnings.warn("detected Windows; aliasing chunkize to chunkize_serial"))

回答说没关系,没什么大不了的,只是一个警告。 但是等了大约3天没有任何回应!我开始怀疑它是否真的适用于阿拉伯语转储文件,或者我必须在将阿拉伯语转储文件传递给 Wikicorpus 对象之前进行某种预处理? 数据大小约为 989.6 MB。 然后我用两个打印命令包围 WikiCorpus 代码行,以了解它何时开始以及何时结束执行,如下所示:

print('start WikiCorpus')
wiki = WikiCorpus(self.in_f)
print('finish WikiCorpus')

其中 self.in_f 是这样的阿拉伯语维基百科转储:(/文件 located/arwiki-20200201-pages-articles.xml.bz2 所在的路径),但从未到达第二个打印命令运行时。

它应该可以工作,尤其是在阿拉伯语有明确的单词分隔符(如单词之间的空格)的情况下。

但是,鉴于 gensim 和最相关的 Python 数据科学图书馆在其他地方获得更多 development/testing/use,因此 Windows 上的很多事情都比较困难,并且有一些 Windows-特定于多处理的奇怪之处。如果您可以选择处理另一个 OS,那可以使事情变得更容易。

最近还有一个问题描述了 en 转储和 WikiCorpus 的类似问题 – 有想法要检查 my answer there,但不清楚提问者是否曾经解决了问题。

此外,在 Windows 中使用依赖于 Python multiprocessing 的代码时,可能特别有必要在 'main' 块中关闭代码如果您的文件被其他进程重新导入,则不会重新 运行,并调用特定于 Windows 的 freeze_support() 函数。参见 some recent discussion of a related matter on the gensim project list