Solr "Content" 字段与“_text_”字段

Solr "Content" field vs "_text_" field

我想知道内容字段与 _text_ 字段之间的区别是什么。我遇到了一个问题,我索引了我所有的 documents/pdfs,但出于某种原因我无法访问那些 documents/pdfs 中的实际 text/info。我注意到我没有 "content" 字段,所以我刚刚创建了一个字段,目前正在重新编制索引。但是,我注意到我有一个 _text_ 字段已存储 = false。这两个字段是否都采用了 documents/pdfs 中的所有文本?

_text_ 是在新的 Solr 核心上默认定义的字段(参见 https://lucene.apache.org/solr/guide/7_5/schemaless-mode.html)。

新 Solr 核心中的默认 managed-schema 文件没有显示任何内容表明它填充了任何内容,因此我怀疑是否填充它取决于您。

_text_ 字段可用于转储文档中所有文本的副本,但这是您必须执行的操作(手动填充 _text_ 字段或使用 copyFields.)

_text_ 已编入索引但未存储这一事实意味着您可以在其中搜索文本(因为它已编入索引)但您无法获取并向用户显示其值(因为它未存储).