文本分类 - 如何查找对决策影响最大的功能

Che*_*hie 2 nlp machine-learning svm sentiment-analysis text-classification

当使用SVMlightLIBSVM为了将短语分类为正面或负面时(情感分析),有没有办法确定哪些是影响算法决策的最有影响力的单词?例如,发现该单词"good"有助于将短语确定为正面等.

lej*_*lot 5

如果你使用线性内核然后是 - 只需计算权重向量:

w = SUM_i y_i alpha_i sv_i
Run Code Online (Sandbox Code Playgroud)

哪里:

  • sv - 支持向量
  • alpha - 使用SVMlight找到的系数
  • y - 相应的班级(+1或-1)

(在某些实现alpha中已经乘以y_i,因此它们是正/负)

一旦你有了w尺寸1 x d,d你的数据维度(单词包中的单词数/ tfidf表示)只需选择具有高绝对值(无论是正面还是负面)的尺寸,以便找到最重要的特征(话).

如果您使用某些内核(如RBF),那么答案是否定的,没有直接的方法来取出最重要的功能,因为分类过程是以完全不同的方式执行的.