如何选择特征选择算法？ - 建议

Question

是否有我可以阅读的研究论文/书籍可以告诉我手头的问题哪种特征选择算法最有效.

我试图简单地将twitter消息识别为pos/neg(开头).我开始使用基于频率的功能选择(已经开始使用NLTK书)但很快意识到,对于类似的问题,各个人都选择了不同的算法

虽然我可以尝试基于频率,互信息,信息增益和各种其他算法的列表似乎无穷无尽......并且想知道是否有一种有效的方式然后反复试验.

任何建议

Answer 1

您是否尝试过我在上一个问题上推荐的那本书？它可以在线免费获取,完全与你正在处理的任务有关:Pang和Lee的情感分析和意见挖掘.第4章("提取和分类")正是您所需要的!

Answer 2

上学期我学了一门 NLP 课程，很明显，情感分析目前还没有人真正知道如何做好。通过无监督学习来做到这一点当然更加困难。

关于这一点正在进行相当多的研究，其中一些是商业性的，因此不向公众开放。我无法向您指出任何研究论文，但我们在课程中使用的书是这本书（谷歌图书预览）。也就是说，这本书涵盖了大量材料，可能不是找到解决这个特定问题的最快方法。

我唯一可以向您指出的另一件事是尝试在谷歌上搜索，也许在scholar.google.com 中搜索“情绪分析”或“意见挖掘”。

查看 NLTKmovie_reviews语料库。这些评论已经进行了正/负分类，可能会帮助您训练分类器。尽管您在 Twitter 中找到的语言可能与那些语言有很大不同。

最后一点，请在此处发布任何成功（或失败）的信息。这个问题肯定会在稍后的某个时候出现。