python中的文本分类 - (基于NLTK句子)

Question

python中的文本分类 - (基于NLTK句子)

sre*_*ram 6 python classification machine-learning bayesian python-3.x

我需要对文本进行分类,我正在使用Text blob python模块来实现它.我可以使用朴素贝叶斯分类器/决策树.我担心下面提到的几点.

1)我需要将句子分类为参数/不是参数.我使用两个分类器并使用apt数据集训练模型.我的问题是关于我是否需要仅使用关键字训练模型？或者我可以用所有可能的参数和非参数样本句子训练数据集？哪个是文本分类准确性和检索时间方面的最佳方法？

2)由于分类是参数/不是参数,哪个分类器可以获取精确的结果？这是朴素贝叶斯/决策树/积极朴素的贝叶斯？

提前致谢.

Answer 1

mac*_*314 1

理想情况下，it is said that the more you train your data, the 'better' your results但这实际上取决于您测试它并将其与您准备的实际结果进行比较之后。

因此，为了回答您的问题，使用关键字训练模型可能会给您带来过于广泛的结果，而这些结果可能不是争论的结果。但实际上，你必须将它与某些东西进行比较，所以我建议你可能还想用参数似乎遵循的一些句子结构（某种模式）来训练你的模型，它可能会消除那些不是参数的句子结构。再次执行此操作，然后对其进行测试，看看您是否获得比以前的模型更高的准确性。

回答您的下一个问题：就文本分类准确性和检索时间而言，哪种方法是最佳方法？这实际上取决于您使用的数据，我无法真正回答这个问题，因为您必须执行交叉验证才能查看您的模型是否达到高精度。显然，你寻找的特征越多，你的学习算法的性能就越差。如果您要处理千兆字节的文本进行分析，我建议使用 Mapreduce 来执行这项工作。

您可能希望将 SVM 作为您的学习模型，使用学习模型（朴素贝叶斯、正朴素贝叶斯和决策树）对其进行测试，然后看看哪一种表现更好。

希望这可以帮助。

归档时间：	11 年，8 月前
查看次数：	1071 次
最近记录：	10 年，8 月前