计算电子邮件分类的语言模型的困惑度

B. *_*les 11 java email perl classification

我有一组功能集,其中包含来自电子邮件语料库的500个最常出现的单克.我一直在使用它来根据测试电子邮件中每个单词的出现/缺失使用c5.0对电子邮件进行分类.

现在我需要计算功能集中术语的困惑,并使用它来分类电子邮件.我想知道有没有任何语言建模经验,并且知道如何计算模型的困惑,任何帮助都会很棒!

我应该补充一点,我知道可以自动为我做的工具,例如SRILM/CMU-LMtoolkit,但我宁愿自己从头开始作为我最后一年项目的一部分!我只需要提示如何开始...也许链接到"白痴指导困惑计算和使用困惑分类"!!

非常感谢!!

mic*_*slm 2

这个CMU 课程练习似乎有你想要的。是的,他们建议您使用 SRILM,但请参阅“语言模型”部分 - 它指向书籍章节、Microsoft Research 的教程以及该教程的演示文稿。

希望这可以帮助!