将大量 xml 文件索引到 solr 5
index a large number of xml files to solr 5
我正在尝试将约 100 万个 xml 文件索引到 Solr 5。我可以想到以下几种方法:
- 将所有 xml 文件转储到一个目录中,然后使用 post.jar
- 在我看来,数据导入处理程序也可用于递归导入 xml 个文件
还有其他方法吗?
您的问题是如何使用 solr 索引一百万 xml-files。
即使是递归文件夹结构,您也可以使用 bin/post 工具。
如果它具有足够的功能:很好。如果您需要更多特殊功能,请构建您自己的索引器,特别是 solrj 这非常简单。
如果您有足够的主内存,您可以使用 DataImportHandler
和 FileListEntityProcessor。 “FileListEntityProcessor”首先收集所有文件,然后 运行 通过真正的索引。因此,在您的情况下,第一步会将 "File" 的一百万个实例放入您的主内存中。
我正在尝试将约 100 万个 xml 文件索引到 Solr 5。我可以想到以下几种方法:
- 将所有 xml 文件转储到一个目录中,然后使用 post.jar
- 在我看来,数据导入处理程序也可用于递归导入 xml 个文件
还有其他方法吗?
您的问题是如何使用 solr 索引一百万 xml-files。
即使是递归文件夹结构,您也可以使用 bin/post 工具。
如果它具有足够的功能:很好。如果您需要更多特殊功能,请构建您自己的索引器,特别是 solrj 这非常简单。
如果您有足够的主内存,您可以使用 DataImportHandler
和 FileListEntityProcessor。 “FileListEntityProcessor”首先收集所有文件,然后 运行 通过真正的索引。因此,在您的情况下,第一步会将 "File" 的一百万个实例放入您的主内存中。