相关疑难解决方法(0)

如何计算给定Python中分布的样本列表的值的概率?

不确定这是否属于统计数据,但我正在尝试使用Python来实现这一目标.我基本上只有一个整数列表:

data = [300,244,543,1011,300,125,300 ... ]
Run Code Online (Sandbox Code Playgroud)

我想知道给定数据的概率值.我使用matplotlib绘制了数据的直方图,并获得了这些:

在此输入图像描述

在此输入图像描述

在第一个图中,数字表示序列中的字符数.在第二个图中,它是一个测量的时间量,以毫秒为单位.最小值大于零,但不一定是最大值.图表是使用数百万个示例创建的,但我不确定我是否可以对分布做出任何其他假设.我想知道一个新值的可能性,因为我有几百万个值的例子.在第一张图中,我有几百万个不同长度的序列.例如,想知道200长度的概率.

我知道,对于连续分布,任何精确点的概率应该为零,但是给定一个新值流,我需要能够说出每个值的可能性.我已经查看了一些numpy/scipy概率密度函数,但是我不知道在运行类似scipy.stats.norm.pdf(data)之后可以选择哪个或如何查询新值.似乎不同的概率密度函数将以不同的方式拟合数据.鉴于直方图的形状我不知道如何决定使用哪个.

python probability matplotlib scipy probability-density

13
推荐指数
3
解决办法
1万
查看次数