"python"中的加权高斯核密度估计

Til*_*ann 12 python statistics scipy kernel-density

目前不可能使用scipy.stats.gaussian_kde基于加权样本来估计随机变量的密度.有哪些方法可以根据加权样本估算连续随机变量的密度?

Til*_*ann 22

无论是sklearn.neighbors.KernelDensitystatsmodels.nonparametric似乎支持加权样本.我修改scipy.stats.gaussian_kde了允许异构采样权重,并认为结果可能对其他人有用.一个例子如下所示.

例

一个ipython笔记本可以在这里找到:http://nbviewer.ipython.org/gist/tillahoffmann/f844bce2ec264c1c8cb5

实施细节

加权算术平均值是

加权算术平均值

无偏数据协方差矩阵由下式给出 无偏协方差矩阵

带宽可以通过scott或按silverman规则选择scipy.但是,用于计算带宽的样本数量是Kish对有效样本大小的近似值.

  • 您是否考虑过要求`scipy`开发人员将您的代码整合到`scipy`或`statsmodels`中? (2认同)
  • 是的,但我还没有实现重新采样和集成.一旦完成,我将发出拉取请求. (2认同)