最简单的特征选择算法

Question

我正在尝试创建自己的简单特征选择算法.我要使用的数据集在这里(非常着名的数据集).有人可以给我一个关于如何这样做的指针吗？

我打算为文本分类编写一个特征等级算法.这是对电影评论的情感分析,将其分类为正面或负面.

所以我的问题是如何为文本数据集编写简单的特征选择.

Answer 1

特征选择方法是一个大话题。您可以从以下开始：

如果你有时间，请阅读这篇论文：文本分类中特征选择的比较研究，这会对你有很大帮助。

实际的实现取决于您如何预处理数据。基本上它是保存计数的，无论是哈希表还是数据库。