为 xdmp:document-filter 指定 mimetype

specify mimetype for xdmp:document-filter

当我在纯文本电子邮件节点上执行 xdmp:document-filter() 时,它最多需要一秒钟来提取元数据。我创建了一个 post-commit 触发器来使用此功能更新文档。没有触发器 mlcp 快 50 倍并且没有超时错误。

是否可以指定选项来帮助加速函数。例如

xdmp:document-filter(doc('/some-uri'), 
   <options ...>
      <data-type>email</data-type>
   </options>)

我建议使用 MLCP 转换 运行 此文档过滤功能。触发器会产生开销,任务服务器将与您的 MLCP 摄取竞争资源。

转换后,您可以提高或降低 MLCP 的速度以找到最佳摄取速度。我通常采用的线程数等于 vm/hyper-thread 内核总数。您也可以考虑使用 -fastload..

HTH!