use*_*896 6 python cluster-analysis machine-learning scikit-learn
我从DPGMM得到的结果不是我所期望的.例如:
>>> import sklearn.mixture
>>> sklearn.__version__
'0.12-git'
>>> data = [[1.1],[0.9],[1.0],[1.2],[1.0], [6.0],[6.1],[6.1]]
>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1)
>>> m.fit(data)
DPGMM(alpha=1, covariance_type='diag', init_params='wmc', min_covar=None,
n_components=5, n_iter=1000, params='wmc',
random_state=<mtrand.RandomState object at 0x108a3f168>, thresh=0.01,
verbose=False)
>>> m.converged_
True
>>> m.weights_
array([ 0.2, 0.2, 0.2, 0.2, 0.2])
>>> m.means_
array([[ 0.62019109],
[ 1.16867356],
[ 0.55713292],
[ 0.36860511],
[ 0.17886128]])
Run Code Online (Sandbox Code Playgroud)
我预计结果会更像香草GMM; 也就是说,两个高斯(大约是1和6),具有不均匀的权重(如[0.625,0.375]).我预计"未使用过的"高斯人的重量接近于零.
我错误地使用了模型吗?
我也尝试过改变阿尔法而没有任何运气.
与 sklearn 0.14.1 版本没有太大区别。我将使用以下代码来打印 DPGMM 模型:
def pprint(model, data):
idx = np.unique(model.predict(data))
m_w_cov = [model.means_, model.weights_, model._get_covars()]
flattened = map(lambda x: np.array(x).flatten(), m_w_cov)
filtered = map(lambda x: x[idx], flattened)
print np.array(filtered)
Run Code Online (Sandbox Code Playgroud)
该函数过滤掉冗余(空)分量,即那些在预测中不使用的分量,并打印平均值、权重和协变。
如果对 OP 问题的数据进行多次尝试,可以找到两种不同的结果:
>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1).fit(data)
>>> m.predict(data)
array([0, 0, 0, 0, 0, 1, 1, 1])
>>> pprint(m, data)
[[ 0.62019109 1.16867356]
[ 0.10658447 0.19810279]
[ 1.08287064 12.43049771]]
Run Code Online (Sandbox Code Playgroud)
和
>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1).fit(data)
>>> m.predict(data)
array([1, 1, 1, 0, 1, 0, 0, 0])
>>> pprint(m, data)
[[ 1.24122696 0.64252404]
[ 0.17157736 0.17416976]
[ 11.51813929 1.07829109]]
Run Code Online (Sandbox Code Playgroud)
那么我们可以猜测意外结果的原因在于一些中间结果(在我们的例子中为1.2)在类之间迁移,并且方法无法推断出正确的模型参数。一个原因是聚类参数 alpha 对于我们的聚类来说太大了,每个聚类只包含 3 个元素,我们可以通过减少这个参数来尝试更好,0.1会得到更稳定的结果:
>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=.1).fit(data)
>>> m.predict(data)
array([1, 1, 1, 1, 1, 0, 0, 0])
Run Code Online (Sandbox Code Playgroud)
但根本原因在于DPGMM方法的随机性,该方法无法在小簇的情况下推断模型结构。如果我们将观察时间延长 4 倍,情况会变得更好,并且方法的行为也更加符合预期:
>>> m = sklearn.mixture.DPGMM(n_components=5, n_iter=1000, alpha=1).fit(data*4)
>>> pprint(m, data)
[[ 0.90400296 5.46990901]
[ 0.11166431 0.24956023]
[ 1.02250372 1.31278926]]
Run Code Online (Sandbox Code Playgroud)
总之,要小心方法拟合参数,并意识到某些 ML 方法在数据集较小或存在偏差的情况下效果不佳。
| 归档时间: |
|
| 查看次数: |
1482 次 |
| 最近记录: |