B. *_*les 11 java email perl classification
我有一组功能集,其中包含来自电子邮件语料库的500个最常出现的单克.我一直在使用它来根据测试电子邮件中每个单词的出现/缺失使用c5.0对电子邮件进行分类.
现在我需要计算功能集中术语的困惑,并使用它来分类电子邮件.我想知道有没有任何语言建模经验,并且知道如何计算模型的困惑,任何帮助都会很棒!
我应该补充一点,我知道可以自动为我做的工具,例如SRILM/CMU-LMtoolkit,但我宁愿自己从头开始作为我最后一年项目的一部分!我只需要提示如何开始...也许链接到"白痴指导困惑计算和使用困惑分类"!!
非常感谢!!
| 归档时间: |
|
| 查看次数: |
2796 次 |
| 最近记录: |