我正在使用朴素贝叶斯分类器.遵循本教程.对于训练好的数据,我使用308个问题并将它们分类为26个手动标记的类别.在发送数据之前,我正在执行NLP.在NLP我正在执行(标点符号删除,标记化,删除词和词干)这个过滤后的数据,用作mahout的输入.使用mahout NBC我训练这些数据并获得模型文件.现在,当我跑
mahout testnb
Run Code Online (Sandbox Code Playgroud)
命令我得到正确的分类实例为96%.
现在,对于我的测试数据,我使用了100个问题,我手动标记了这些问题.当我使用经过训练的模型和测试数据时,我得到的正确分类实例为1%.这让我感到沮丧.
任何人都可以告诉我我做错了什么或建议我一些方法来提高NBC的表现.
另外,理想情况下,我应该使用多少问题数据来训练和测试?