Edw*_*gin 1 python machine-learning scikit-learn
我有从数千个癌细胞中获得的数据.存储在pandas数据帧中的每个单元60个测量值.使用另一种方法将细胞分为3个群体.
我想知道哪些参数/维度最能区分/分离各个类.我是新手,有很多选择.我确实尝试过sklearn的PCA分解,但这只返回了数据集变异的2-3个原则组成部分而不是与类相关(我仍然没有找到一种方法来打印出尺寸最大的标签对于这种变化,对此的帮助将不胜感激!)
那么找到每个班级变化最大的维度的最佳方法是什么.我想象一个2参数PCA,我的课程尽可能分开.
是否也可以做同样的事情来找到相对于另一个维度(列)变化最大的维度
谢谢!
您想使用线性判别分析(LDA)而不是PCA.
PCA仅以最佳方式查找表示所有类的完整数据集的组件.与此相反,您希望找到那些可以帮助您在不同类之间进行区分的组件,这是LDA的用途.
看看这个例子:
http://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_vs_lda.html
如果您无法根据数据调整此数据,请随时提供样本数据和一些LDA代码,并告知我们您遇到的问题.
[编辑:示例代码在这里:http://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_vs_lda.html ]
您也可以通过随机森林确定要素重要性.这不会找到最能区分类的组件,而是告诉您原始功能的相对重要性(听起来就像您要求的那样).这是一个链接:
http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html
| 归档时间: |
|
| 查看次数: |
1066 次 |
| 最近记录: |