如何选择特征选择算法? - 建议

Rah*_*ghe 7 nlp nltk semantic-analysis

是否有我可以阅读的研究论文/书籍可以告诉我手头的问题哪种特征选择算法最有效.

我试图简单地将twitter消息识别为pos/neg(开头).我开始使用基于频率的功能选择(已经开始使用NLTK书)但很快意识到,对于类似的问题,各个人都选择了不同的算法

虽然我可以尝试基于频率,互信息,信息增益和各种其他算法的列表似乎无穷无尽......并且想知道是否有一种有效的方式然后反复试验.

任何建议

fer*_*nko 6

您是否尝试过我在上一个问题上推荐的那本书?它可以在线免费获取,完全与你正在处理的任务有关:Pang和Lee的情感分析和意见挖掘.第4章("提取和分类")正是您所需要的!


Mat*_*yra 4

上学期我学了一门 NLP 课程,很明显,情感分析目前还没有人真正知道如何做好。通过无监督学习来做到这一点当然更加困难。

关于这一点正在进行相当多的研究,其中一些是商业性的,因此不向公众开放。我无法向您指出任何研究论文,但我们在课程中使用的书是这本书谷歌图书预览)。也就是说,这本书涵盖了大量材料,可能不是找到解决这个特定问题的最快方法。

我唯一可以向您指出的另一件事是尝试在谷歌上搜索,也许在scholar.google.com 中搜索“情绪分析”或“意见挖掘”。

查看 NLTKmovie_reviews语料库。这些评论已经进行了正/负分类,可能会帮助您训练分类器。尽管您在 Twitter 中找到的语言可能与那些语言有很大不同。

最后一点,请在此处发布任何成功(或失败)的信息。这个问题肯定会在稍后的某个时候出现。