stormcrawler:indexer.md.mapping - 如果元数据标签不存在会怎样?

stormcrawler: indexer.md.mapping - what happens if the metadata tag does not exist?

我们在使用 Stormcrawler 1.13 时遇到了一个奇怪的问题。在我们的一些(但不是全部)网站上,我们有一个 <meta name="college" content="thiscollege"/> 标签,而 SC 将 indexer.md.mapping 设置为 - parse.college=college。对于设置了该元标记的站点,这似乎可以正常工作。

我们 运行 遇到的问题是,如果将页面 3.html、4.html 和 5.html 的元标记设置为 thiscollege1,则爬虫命中没有元标记的 page25.html,它 似乎 重新使用 5.html 元标记的值 thiscollege1并将其填充到弹性索引中的 college 字段中。

有没有办法设置它,以便它在每次前往新页面时清零或取消设置该变量,从而不会保留该变量?

如有任何关于如何调整此设置的建议,我们将不胜感激!

追查问题很麻烦,因为有些记录似乎只是随机输入。直到我将记录与按 NextFetchDate 排序的一些状态记录进行匹配,我才发现它可能是一个结转变量。我将尝试设置一个只有几页的特定测试来具体 prove/disprove 理论,但现在它是唯一适合正在发生的事情。

欢迎提出任何想法!

仅当您在配置 metadata.transfer 的值中列出了 parse.college 时才会发生这种情况。