将非常大的数据集导入 arangoDB 时出错

Question

我正在尝试通过 arangoimp 将一个巨大的数据集导入 ArangoDB。大约有 5500 万条边。我已经增加了 wal.logfiles 的大小（--wal.logfile-size 从 32k 增加到 1024k）。这解决了最后一个错误。但现在我收到以下错误：

WARNING {collector} got unexpected error in MMFilesCollectorThread::collect: no journal
ERROR cannot create datafile '/usr/local/var/lib/arangodb3/databases/database-1/collection-2088918365-385765492/temp-2153337069.db': Too many open files

导入语句为：arangoimp --file links_de.csv --type csv --collection links

有没有办法让 arangoimp 像做块之类的那样更迭代地工作？由于 CSV 的大小，将 CSV 拆分成某些部分会非常复杂...

非常感谢！

Answer 1

我终于解决了： Too many open files 是提示。您需要提高打开文件句柄的限制。因此，在 unix / mac os 运行 ulimit -n 16384 或更高版本上启动 arango 之前，要提高此 shell 会话的限制。之后导入仍然需要几个小时，但对我有用。您还可以增加 arango 中集合的日志大小，以减少所需文件句柄的数量。

另见：

将非常大的数据集导入 arangoDB 时出错

Error while importing very large dataset to arangoDB

csv

import

arangodb

arangoimport