最简单的特征选择算法

ahe*_*ang 7 algorithm machine-learning data-mining semantic-analysis

我正在尝试创建自己的简单特征选择算法.我要使用的数据集在这里(非常着名的数据集).有人可以给我一个关于如何这样做的指针吗?

我打算为文本分类编写一个特征等级算法.这是对电影评论的情感分析,将其分类为正面或负面.

所以我的问题是如何为文本数据集编写简单的特征选择.

Xol*_*lve 3

特征选择方法是一个大话题。您可以从以下开始:

  1. 卡方

  2. 互信息

  3. 术语频率

如果你有时间,请阅读这篇论文:文本分类中特征选择的比较研究,这会对你有很大帮助。

实际的实现取决于您如何预处理数据。基本上它是保存计数的,无论是哈希表还是数据库。