WikiCorpus 是否适用于阿拉伯语维基百科转储？

Question

我在阿拉伯语维基百科转储中看到一段使用 Wikicorpus 的代码，我知道该过程需要很长时间才能执行，我还搜索了执行它时收到的警告：

(UserWarning: detected Windows; aliasing chunkize to chunkize_serial
warnings.warn("detected Windows; aliasing chunkize to chunkize_serial"))

回答说没关系，没什么大不了的，只是一个警告。但是等了大约3天没有任何回应！我开始怀疑它是否真的适用于阿拉伯语转储文件，或者我必须在将阿拉伯语转储文件传递给 Wikicorpus 对象之前进行某种预处理？数据大小约为 989.6 MB。然后我用两个打印命令包围 WikiCorpus 代码行，以了解它何时开始以及何时结束执行，如下所示：

print('start WikiCorpus')
wiki = WikiCorpus(self.in_f)
print('finish WikiCorpus')

其中 self.in_f 是这样的阿拉伯语维基百科转储：（/文件 located/arwiki-20200201-pages-articles.xml.bz2 所在的路径），但从未到达第二个打印命令运行时。

Answer 1

它应该可以工作，尤其是在阿拉伯语有明确的单词分隔符（如单词之间的空格）的情况下。

但是，鉴于 gensim 和最相关的 Python 数据科学图书馆在其他地方获得更多 development/testing/use，因此 Windows 上的很多事情都比较困难，并且有一些 Windows-特定于多处理的奇怪之处。如果您可以选择处理另一个 OS，那可以使事情变得更容易。

最近还有一个问题描述了 en 转储和 WikiCorpus 的类似问题 – 有想法要检查 my answer there，但不清楚提问者是否曾经解决了问题。

此外，在 Windows 中使用依赖于 Python multiprocessing 的代码时，可能特别有必要在 'main' 块中关闭代码如果您的文件被其他进程重新导入，则不会重新运行，并调用特定于 Windows 的 freeze_support() 函数。参见 some recent discussion of a related matter on the gensim project list。

WikiCorpus 是否适用于阿拉伯语维基百科转储？

Does WikiCorpus from gensim library works on Arabic Wikipedia dump?

python

gensim