如何 运行 apache 以并行方式处理不同的作业
How to run apache nutch different jobs in parallel manner
我正在使用 nutch 2.3。所有作业 运行 一个接一个,即第一个生成器、获取、解析、索引等。我想同时 运行 一些作业。我知道有些作业不能 运行 并行,但其他作业可以,例如解析作业、dbupdate、indexjob 应该 运行 with fetch.
可能吗?我的基本 objective 是一直 运行 抓取工作。我想我们可以用不同的时间戳来做到这一点。
谁能指导我正确的方法?
如果你查看 nutch web 应用程序服务器,你会发现它可以在 parallel.You 中执行多个爬网作业,应该查看 Nutch 2.3 for webapp[NutchUiServer] 的源代码。希望这有帮助。
我正在使用 nutch 2.3。所有作业 运行 一个接一个,即第一个生成器、获取、解析、索引等。我想同时 运行 一些作业。我知道有些作业不能 运行 并行,但其他作业可以,例如解析作业、dbupdate、indexjob 应该 运行 with fetch.
可能吗?我的基本 objective 是一直 运行 抓取工作。我想我们可以用不同的时间戳来做到这一点。 谁能指导我正确的方法?
如果你查看 nutch web 应用程序服务器,你会发现它可以在 parallel.You 中执行多个爬网作业,应该查看 Nutch 2.3 for webapp[NutchUiServer] 的源代码。希望这有帮助。