减少 CRFClassifier 模型文件大小

reducing CRFClassifier model file size

我正在使用 CoreNLP CRFClassifier 训练分词器,我想减小生成的模型文件的大小。我以为我可以使用 featureCountThreshold 属性 来限制不常见的功能并以这种方式减小文件大小,但我尝试了几个阈值并且文件大小始终相同,所以我正在做出了点问题或者我误解了 featureCountThreshold 属性.

这就是我如何实例化 CRFClassifier:

val props = new Properties()
props.setProperty("macro", "true")
props.setProperty("featureFactory", "edu.arizona.sista.chunker.ChunkingFeatureFactory")
props.setProperty("featureCountThreshold", "10")
new CRFClassifier[CoreLabel](props)

代码在 scala 中,但应该很简单。

这是减小文件大小的正确方法吗?如果没有,有没有办法做到这一点?

对于下一个尝试这样做的人:

CoreNLP 中有两个名称相似的属性:featureCountThresholdfeatureCountThreshfeatureCountThresh 是这项任务的正确答案。 我们能够使用 10 的 featureCountThresh 将模型从 321M 减少到 54M,并且仍然保持几乎相同的性能。