关于"特征选择/提取器/权重"是什么意思以及它们之间的区别,我有点困惑.在我阅读文献时,有时候我会感到迷茫,因为我发现这个术语使用得非常松散,我的主要关注点是 -
当人们谈论特征频率,特征存在时 - 它是否是特征选择?
当人们谈论信息增益,最大熵等算法时,它仍然是特征选择.
如果我训练分类器 - 使用要求分类器记录文档中单词位置的特征集作为示例 - 是否仍然会调用此特征选择?
谢谢Rahul Dighe
是否有我可以阅读的研究论文/书籍可以告诉我手头的问题哪种特征选择算法最有效.
我试图简单地将twitter消息识别为pos/neg(开头).我开始使用基于频率的功能选择(已经开始使用NLTK书)但很快意识到,对于类似的问题,各个人都选择了不同的算法
虽然我可以尝试基于频率,互信息,信息增益和各种其他算法的列表似乎无穷无尽......并且想知道是否有一种有效的方式然后反复试验.
任何建议