Weka

Question

我正在尝试构建一个朴素贝叶斯分类器来对两个类之间的文本进行分类。在 GUI 资源管理器中一切正常，但是当我尝试在代码中重新创建它时，无论我尝试对什么输入进行分类，我都会得到相同的输出。

在代码中，我得到了与在 GUI 中得到的相同的评估指标（81% 的准确率），但是每当我尝试创建一个新实例并对其进行分类时，我都得到了相同的分布类无论我使用什么输入。

下面是我的代码 - 它在 Scala 中，但非常简单：

//Building the classifier: 
val instances = new Instances(new DataSource("/my/dataset.arff").getDataSet)
instances.setClassIndex(3)

val filter = new StringToWordVector
filter.setAttributeIndicesArray( (0 to 2).toArray )
val classifier = new FilteredClassifier
classifier.setFilter(new StringToWordVector(1000000))
classifier.setClassifier(new NaiveBayesMultinomial)
classifier.buildClassifier(trainingSet)

//Evaluation (this prints about 80% accuracy)
val eval = new Evaluation(trainingSet)
eval.evaluateModel(classifier, trainingSet)

println(eval.toSummaryString)

//Attempting to use the classifier:

val atts = new util.ArrayList[Attribute]
atts.add(new Attribute("sentence", true))
atts.add(new Attribute("parts_of_speech", true))
atts.add(new Attribute("dependency_graph", true))
atts.add(new Attribute("the_shizzle_clazz", SentenceType.values().map(_.name()).toSeq.asJava ))

val unlabeledInstances = new Instances("unlabeled", atts, 1)
unlabeledInstances.setClassIndex( 3 )

val instance = new DenseInstance(4)

unlabeledInstances.add(instance)
instance.setDataset(unlabeledInstances)

instance.setValue(0, parsed.sentence)
instance.setValue(1, parsed.posTagsStr)
instance.setValue(2, parsed.depsGraphStr)

val distrib = classifier.distributionForInstance(unlabeledInstance.firstInstance())

distrib.foreach(println)

无论我输入什么，distrib 的输出总是：

0.44556173367704455
0.5544382663229555

知道我做错了什么吗？非常感谢任何帮助。

Answer 1

看起来魔法线是：

instance.setClassMissing()

添加它使其工作。 :)

Weka - 分类器 returns 任何输入的相同分布

Weka - Classifier returns the same distribution for any input

java

nlp