scikits.learn曲线拟合参数的聚类方法

mga*_*ini 3 python cluster-analysis data-mining scikit-learn

我想对使用python和scikits.learn的最佳聚类技术提出一些建议.我们的数据来自表型微阵列,其测量细胞在各种底物上的代谢活性随时间的变化.输出是一系列S形曲线,我们通过拟合到S形函数来提取一系列曲线参数.

我们希望使用固定数量的聚类通过聚类来"排列"此活动曲线.目前我们正在使用包提供的k-means算法,其中(init ='random',k = 10,n_init = 100,max_iter = 1000).输入是一个矩阵,每个样本有n_samples和5个参数.样本数量可以变化,但通常约为数千(即5'000).聚类似乎是高效和有效的,但我将不胜感激任何关于不同方法或对聚类质量进行评估的最佳方法的建议.

这里有几个可能有用的图表:

输入参数的散点图(其中一些非常相关),单个样本的颜色相对于指定的簇.
提取输入参数的sigmoid曲线,其颜色相对于其指定的簇

编辑

下面是一些肘部图和每个簇数的轮廓得分. 聚类统计数据

你有没有注意到你的情节中的条纹图案？

这表明您没有足够好地规范化数据.

"区域"和"高度"高度相关,可能是最大规模的.所有聚类都发生在这个轴上.

你绝对必须:

进行仔细的预处理
检查你的距离函数是否产生了一个有意义的(对你而不仅仅是计算机)相似的概念
现实 - 检查您的结果,并检查它们是不是太简单,例如通过单个属性确定

不要盲目跟随数字.无论您提供什么数据,K-means都会愉快地生成k个簇.它只是优化了一些数字.由你来检查结果是否有用,并分析它们的语义是什么 - 它可能只是在数学上是局部最优,但对你的任务毫无意义.

规范化应该*不是自动的.因为用户可能想要或多或少地强调个别属性,最简单的方法是缩小它们; 特别是对于原始方法,例如不了解权重或距离的k均值.缩放是一种加权属性的简单方法. (2认同)

对于5000个样本,所有方法都应该没有问题.本是一个相当不错的概述这里.需要考虑的一件事是你是否想要修复集群的数量.请参阅表格,了解可能的聚类算法选择.

我认为谱聚类是一种非常好的方法.您可以将它与RBF内核一起使用.但是,您必须调整gamma,并可能限制连接.

不需要n_clusters的选择是WARD和DBSCAN,也是可靠的选择.您也可以参考我个人意见的图表,我在scikit-learn文档中找不到链接...

为了判断结果:如果你没有任何基本事实(如果这是探索性的话我认为你没有),那么[尚未](在scikit-learn中)没有好的衡量标准.

有一个无监督的度量,轮廓得分,但afaik有利于k-means找到的非常紧凑的群集.群集的稳定性测量可能有所帮助,尽管它们尚未在sklearn中实现.

我最好的选择是找到一种检查数据和可视化聚类的好方法.您是否尝试过PCA并考虑过多种学习技巧？

归档时间：	12 年，7 月前
查看次数：	1616 次
最近记录：	10 年，7 月前

Python datetime - 在使用strptime获取日,月,年之后设置固定的小时和分钟 148

使用pip3安装软件包时,"Python中的SSL模块不可用" 75

Python/Django:如何断言单元测试结果包含某个字符串？ 59

如何在django中编写自定义装饰器？ 50

在python脚本中设置环境变量 49

如何找到两点之间的距离？ 48

如何在路由器上注册单个视图(而不是视图集)？ 46

如何在sklearn中实现前进测试？ 26

在多核机器上对 sklearn.naive_bayes.MultinomialNB 执行网格搜索不会使用所有可用的 CPU 资源 5

如何使用R应用分层或k均值聚类分析？ -5

浮点数学是否破碎？ 2798

在Git中只提交文件的一部分 2629

如何列出提交中的所有文件？ 2619

如何确定Python变量的类型？ 1437

[Flags]枚举属性在C#中意味着什么？ 1383

如何在git历史中grep(搜索)已提交的代码？ 1342

如何在正则表达式中使用变量？ 1250

\ d效率低于[0-9] 1214

退出申请不赞成？ 1131

如何向给定元素添加类？ 1109