Rah*_*ghe 7 nlp nltk semantic-analysis
是否有我可以阅读的研究论文/书籍可以告诉我手头的问题哪种特征选择算法最有效.
我试图简单地将twitter消息识别为pos/neg(开头).我开始使用基于频率的功能选择(已经开始使用NLTK书)但很快意识到,对于类似的问题,各个人都选择了不同的算法
虽然我可以尝试基于频率,互信息,信息增益和各种其他算法的列表似乎无穷无尽......并且想知道是否有一种有效的方式然后反复试验.
任何建议
上学期我学了一门 NLP 课程,很明显,情感分析目前还没有人真正知道如何做好。通过无监督学习来做到这一点当然更加困难。
关于这一点正在进行相当多的研究,其中一些是商业性的,因此不向公众开放。我无法向您指出任何研究论文,但我们在课程中使用的书是这本书(谷歌图书预览)。也就是说,这本书涵盖了大量材料,可能不是找到解决这个特定问题的最快方法。
我唯一可以向您指出的另一件事是尝试在谷歌上搜索,也许在scholar.google.com 中搜索“情绪分析”或“意见挖掘”。
查看 NLTKmovie_reviews语料库。这些评论已经进行了正/负分类,可能会帮助您训练分类器。尽管您在 Twitter 中找到的语言可能与那些语言有很大不同。
最后一点,请在此处发布任何成功(或失败)的信息。这个问题肯定会在稍后的某个时候出现。