如何使用python查找已知数据的多项分布参数？

Question

如何使用python查找已知数据的多项分布参数？

Fen*_*hen 1 python statistics scipy scikit-learn multinomial

我刚开始学习 Python。这是一个数据框：

a=pd.DataFrame({'A1':[0,1,2,3,2,1,6,0,1,1,7,10]})

Run Code Online (Sandbox Code Playgroud)

现在我认为这些数据遵循多项式分布。因此，12 个数字表示 12 个类别（类别 0、1、2...）的频率。例如，类别0的出现次数为0。因此，我希望在给定这些数据的情况下找到多项式的所有参数。最后，我们有多项式的最佳参数（或者我们可以说每个数字的最佳概率）。例如，

category:    0,      1,     2,     3,      4...
weights:    0.001,  0.1,   0.2,   0.12,   0.2...

Run Code Online (Sandbox Code Playgroud)

所以，我不需要测试数据来预测。这不是分类。作为一个新手，我什至不确定我是否应该使用 scipy.stats.multinomial 或 sklearn 模型，或者其他一些技术。那么，有人能给我一些帮助吗？

Answer 1

Man*_*008 7

最大似然估计( MLE )是获得分布参数点估计的最重要程序之一。这是你需要开始的。

解析解：

跨国公司分布的一个扩展二项式分布为其MLE可以分析获得。请参阅此数学堆栈交换帖子（多项式分布的 MLE）以获得完整的分析解决方案。该过程从定义一个似然函数开始，L(p)以观测数据x(i) 为条件，其中p和x是k 类/类别的概率和观测出现次数，i= 0,1,...k。它是在给定参数集 (p) 的情况下观察一组观察 (x)的可能性的度量：

L(p)等于：

主要思想是在参数范围 (p) 上最大化似然函数值。给定总观测值n（即所有类别的出现次数总和），点估计等于：

a.values/a.values.sum() # point estimates for p = x/n # array([[0. ], [0.02941176], [0.05882353], [0.08823529], # [0.05882353], [0.02941176], [0.17647059], [0. ], # [0.02941176], [0.02941176], [0.20588235], [0.29411765]])
Run Code Online (Sandbox Code Playgroud)
数值解：

上述结果也可以使用数值获得scipy.optimize.minimize。请注意，L(p)是阶乘项和指数项的乘积。阶乘项是一个常数，不依赖于参数值 (p)，因此不考虑优化。对于指数项，最好进行对数变换以简化目标函数；MLE 的常见做法，因为log是单调递增函数。此外，由于scipy.optimize.minimize用于最小化，我们将使用对数变换似然函数的负数。笔记最大化函数值等于最小化其负值。

import pandas as pd import numpy as np import scipy.optimize as sciopt # bounds for parameters to lie between (0,1), # absolute zero (0) for lower bound avoided as log takes an infinite value bnds = [(0.001e-12,1) for i in range(12)] # Initializing parameters value for optimization init_parameters = np.asarray([0.1 for i in range(12)]) # Negative Log Likelihood Function neg_log_lik = lambda p: -np.sum([a.values[i]*np.log(p[i]) for i in range(12)]) # Constraint sum(p) = 1 cons = {'type': 'eq', 'fun': lambda p: (sum([p[i] for i in range(12)]) - 1) } # Minimizing neg_log_lik results = sciopt.minimize(neg_log_lik, x0 = init_parameters, method='SLSQP', bounds= bnds, constraints= cons) results.x # point estimates for p # array([1.00000000e-15, 2.94179308e-02, 5.88243586e-02, 8.82394605e-02, # 5.88243586e-02, 2.94059735e-02, 1.76454713e-01, 1.00000000e-15, # 2.94134577e-02, 2.94135714e-02, 2.05849197e-01, 2.94156978e-01])
Run Code Online (Sandbox Code Playgroud)
有关上述实现的详细信息，请参阅scipy.optimize.minimize 文档。

归档时间：	7 年，4 月前
查看次数：	1269 次
最近记录：	7 年，4 月前