Python：计算列中每个值有效的概率

Question

Python：计算列中每个值有效的概率

MaM*_*aMo 3 python statistics probability pandas

我有一个像这样的熊猫数据框：

+-----+----------+
| No  | quantity |
+-----+----------+
|   1 |    100.0 |
|   2 |    102.3 |
|   3 |    301.2 |
|   4 |    100.6 |
|   5 |    120.9 |
| ... |      ... |
+-----+----------+

Run Code Online (Sandbox Code Playgroud)

我如何计算每个值适合数据集的概率（在数据框中，除了第 3 个值之外）。这个想法是使用标准化正态分布并计算出现某个值（或更极端的值）的概率。在这种情况下，第 3 号发生的概率几乎为零，因为它与所有其他值相距甚远。

我知道如何在纸上对每个值执行此操作：

计算 z 分数
在标准正态概率表中找到相应的值
如果值低于分布的平均值，则概率为 1-概率

所以期望的输出是这样的：

+-----+----------+--------+
| No  | quantity |  prob  |
+-----+----------+--------+
|   1 |    100.0 | 99,85% |
|   2 |    102.3 | 99,81% |
|   3 |    301.2 | 00,00% |
|   4 |    100.6 | 99,90% |
|   5 |    120.9 | 74,30% |
| ... |      ... | ...    |
+-----+----------+--------+

Run Code Online (Sandbox Code Playgroud)

我怎样才能在Python中实现这一点？

谢谢：）

Answer 1

chr*_*ris 5

对您的解决方案的一些评论：如果您已经在使用 scipy，则可以只使用scipy.stats.mstats.zscore而不是编写自己的 zscore 计算，并且不需要导入 numpy 来计算 pandas 系列的平均值：

df= pd.DataFrame(columns=['No','quantity'], data=[[1,100.0],[2,102.3],[3,301.3],[4,101.3],[5,101.3],[6,120.3]])
mu=df.quantity.mean()
sig=df.quantity.std()
df['z']=scipy.stats.mstats.zscore(df.quantity)
df['prob'] = 0.0

for idx,row in df.iterrows():
    if row.quantity < mu:
        df.at[idx,'prob'] = 1 - (scipy.stats.norm(mu,sig).pdf(row.quantity))
    else:
        df.at[idx,'prob'] = scipy.stats.norm(mu, sig).pdf(row.quantity)

Run Code Online (Sandbox Code Playgroud)

您还可以使用 apply 避免对数据框进行迭代：

df= pd.DataFrame(columns=['No','quantity'], data=[[1,100.0],[2,102.3],[3,301.3],[4,101.3],[5,101.3],[6,120.3]])
mu=df.quantity.mean()
sig=df.quantity.std()
df['z']=scipy.stats.mstats.zscore(df.quantity)
df['prob']=df['quantity'].apply(lambda x: scipy.stats.norm(mu,sig).pdf(x) if x > mu else 1 - scipy.stats.norm(mu,sig).pdf(x))

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，11 月前
查看次数：	7764 次
最近记录：	7 年，11 月前