使用weka jar在java代码中加载朴素贝叶斯模型

Question

使用weka jar在java代码中加载朴素贝叶斯模型

Ham*_*san 0 java weka naivebayes

我使用了weka并通过使用weka GUI制作了一个朴素贝叶斯分类器。然后我按照本教程保存了这个模型。现在我想通过 Java 代码加载这个模型，但我无法找到任何使用 weka 加载保存模型的方法。

这是我的要求，我必须单独制作模型，然后在单独的程序中使用它。

如果有人能在这方面指导我，我将不胜感激。

Answer 1

xro*_*ro7 5

您可以使用以下命令轻松地在 Java 中加载保存的模型：

Classifier myCls = (Classifier) weka.core.SerializationHelper.read(pathToModel);

Run Code Online (Sandbox Code Playgroud)

对于 Java 中的完整工作流程，我在 SO 文档中写了以下文章，现在复制到这里：

Weka中的文本分类

使用 LibLinear 进行文本分类

从 .arff 文件创建训练实例

private static Instances getDataFromFile(String path) throws Exception{

    DataSource source = new DataSource(path);
    Instances data = source.getDataSet();

    if (data.classIndex() == -1){
        data.setClassIndex(data.numAttributes()-1);
        //last attribute as class index
    }

    return data;    
}

Run Code Online (Sandbox Code Playgroud)

Instances trainingData = getDataFromFile(pathToArffFile);

Run Code Online (Sandbox Code Playgroud)

使用StringToWordVector将您的字符串属性转换为数字表示：
- 此过滤器的重要功能：
  1. tf-idf 表示
  2. 词干化
  3. 小写单词
  4. 停用词
  5. n-gram 表示*
```
StringToWordVector() filter = new StringToWordVector();    
filter.setWordsToKeep(1000000);
if(useIdf){
    filter.setIDFTransform(true);
}
filter.setTFTransform(true);
filter.setLowerCaseTokens(true);
filter.setOutputWordCounts(true);
filter.setMinTermFreq(minTermFreq);
filter.setNormalizeDocLength(new SelectedTag(StringToWordVector.FILTER_NORMALIZE_ALL,StringToWordVector.TAGS_FILTER));
NGramTokenizer t = new NGramTokenizer();
t.setNGramMaxSize(maxGrams);
t.setNGramMinSize(minGrams);    
filter.setTokenizer(t);     
WordsFromFile stopwords = new WordsFromFile();
stopwords.setStopwords(new File("data/stopwords/stopwords.txt"));
filter.setStopwordsHandler(stopwords);
if (useStemmer){
    Stemmer s = new /*Iterated*/LovinsStemmer();
    filter.setStemmer(s);
}
filter.setInputFormat(trainingData);
```
Run Code Online (Sandbox Code Playgroud)
- 将过滤器应用于 trainingData： trainingData = Filter.useFilter(trainingData, filter);
- 创建 LibLinear 分类器
  1. 下面的 SVMType 0 对应于 L2 正则化逻辑回归
  2. 设置setProbabilityEstimates(true)打印输出概率
    
    Classifier cls = null; LibLINEAR liblinear = new LibLINEAR(); liblinear.setSVMType(new SelectedTag(0, LibLINEAR.TAGS_SVMTYPE)); liblinear.setProbabilityEstimates(true); // liblinear.setBias(1); // default value cls = liblinear; cls.buildClassifier(trainingData);
- 保存模型
  
  System.out.println("Saving the model..."); ObjectOutputStream oos; oos = new ObjectOutputStream(new FileOutputStream(path+"mymodel.model")); oos.writeObject(cls); oos.flush(); oos.close();
- 从.arff文件创建测试实例
  
  实例 trainingData = getDataFromFile(pathToArffFile);
- 负载分类器
Classifier myCls = (Classifier) weka.core.SerializationHelper.read(path+"mymodel.model");
- 使用与上述相同的 StringToWordVector 过滤器或为 testingData 创建一个新过滤器，但请记住为此命令使用 trainingData：filter.setInputFormat(trainingData); 这将使训练和测试实例兼容。或者你可以使用InputMappedClassifier
- 将过滤器应用于 testingData： testingData = Filter.useFilter(testingData, filter);
- 分类！
1.获取测试集中每个实例的类值

for (int j = 0; j < testingData.numInstances(); j++) { double res = myCls.classifyInstance(testingData.get(j)); } res是一个双精度值，对应于.arff文件中定义的名义类。要获得名义类使用：testintData.classAttribute().value((int)res)

2.获取每个实例的概率分布

 for (int j = 0; j < testingData.numInstances(); j++) {
    double[] dist = first.distributionForInstance(testInstances.get(j));
 }

Run Code Online (Sandbox Code Playgroud)

dist是一个双数组，包含.arff文件中定义的每个类的概率

笔记。分类器应支持概率分布并使其具有：myClassifier.setProbabilityEstimates(true);

归档时间：	8 年，9 月前
查看次数：	1982 次
最近记录：	7 年，11 月前