使用 Stanford CoreNLP 解析文本时忽略 XML 元素内的文本
Ignore text inside XML elements when parsing text with Stanford CoreNLP
我想使用 Stanford CoreNLP 分析 XML 个文件的文本内容。
这是我正在分析的 XML 元素类型的示例:
<cmd>In the new plug-in directory, add a <filepath>cfg/catalog.xml</filepath> file that specifies the custom XSLT style sheets.</cmd>
我想检查的一件事是 <cmd>
元素是否包含多个句子。现在,如果我提取上面 <cmd>
元素的文本内容,结果是这样的:
In the new plug-in directory, add a cfg/catalog.xml file that specifies the custom XSLT style sheets.
如果我将那段文本交给 Stanford CoreNLP,由于 cfg/catalog.xml
中的点,它认为该文本有两个句子,即使它实际上只是一个句子。
在这个特定的示例中,我可能在分析文本时省略 <filepath>
元素的内容并且效果很好,但情况并非总是如此。
关于如何在一般层面上最好地解决这个问题有什么建议吗?我想我正在寻找一种方法来忽略 <filepath>
的内容和出于某些目的的类似元素,或者以某种方式强制将它们识别为命名实体,如果这有意义的话。
您可以构建一个注释器,临时替换有问题的 tags/file-names,然后在句子拆分后恢复它们。
如果有机会,我会编写一些示例代码。
我想使用 Stanford CoreNLP 分析 XML 个文件的文本内容。
这是我正在分析的 XML 元素类型的示例:
<cmd>In the new plug-in directory, add a <filepath>cfg/catalog.xml</filepath> file that specifies the custom XSLT style sheets.</cmd>
我想检查的一件事是 <cmd>
元素是否包含多个句子。现在,如果我提取上面 <cmd>
元素的文本内容,结果是这样的:
In the new plug-in directory, add a cfg/catalog.xml file that specifies the custom XSLT style sheets.
如果我将那段文本交给 Stanford CoreNLP,由于 cfg/catalog.xml
中的点,它认为该文本有两个句子,即使它实际上只是一个句子。
在这个特定的示例中,我可能在分析文本时省略 <filepath>
元素的内容并且效果很好,但情况并非总是如此。
关于如何在一般层面上最好地解决这个问题有什么建议吗?我想我正在寻找一种方法来忽略 <filepath>
的内容和出于某些目的的类似元素,或者以某种方式强制将它们识别为命名实体,如果这有意义的话。
您可以构建一个注释器,临时替换有问题的 tags/file-names,然后在句子拆分后恢复它们。
如果有机会,我会编写一些示例代码。