Roh*_*ith 2 python nlp classification nltk
我有单词列表,我想通过考虑它们的共同出现来计算两个单词的相关性。从一篇论文中我发现它可以使用Pearsson 卡方检验来计算。我还发现nltk.BigramAssocMeasures.ch_sq()用于计算卡方值。
我可以用它来满足我的需求吗?如何使用 nltk 找到卡方值?
看看来自 Streamhacker 的这个博客,它用代码示例给出了很好的解释。
信息增益的最佳指标之一是卡方。NLTK 将此包含在指标包的 BigramAssocMeasures 类中。要使用它,首先我们需要为每个词计算一些频率:它的总频率和它在每个类别中的频率。这是通过词的整体频率的 FreqDist 和条件是类标签的 ConditionalFreqDist 完成的。一旦我们有了这些数字,我们就可以使用 BigramAssocMeasures.chi_sq 函数对单词进行评分,然后按分数对单词进行排序并取前 10000 个。然后我们将这些单词放入一个集合中,并在我们的特征选择函数中使用集合成员资格测试来只选择出现在集合中的那些词。现在根据这些高信息词的存在对每个文件进行分类。
| 归档时间: |
|
| 查看次数: |
2990 次 |
| 最近记录: |