qua*_*ash 5 python numpy histogram binning threshold
在使用 Numpy.histogram 或 matplotlib.pyplot.hist 创建的典型直方图中,箱具有统一的宽度或用户指定他/她自己的箱边缘。关于最佳 bin 宽度有很多选择——比如 sqrt(样本大小)。
有时,有一些箱内有零个对象——例如,在直方图的极值处。如果想要寻找相关性,这可能会很痛苦——例如,如果您想要检查每个容器中的对象数量是否随着 x 轴上的数量增加而增加。(想象一个直方图,其中几乎所有其他 bin 实际上都有 0 个对象,或者一个直方图中第一个和最后一个 bin 实际上有 0 个对象 - 这两种情况都会导致数据可视化效果不佳,并且更难以看到任何潜在的相关性。 )
在这种情况下,对分箱施加阈值以使每个分箱包含至少N 个对象可能是有益的。当然,bin 宽度可能不再统一。
有没有一种简单的方法(即内置函数)可以使用 Numpy、Scipy 或 matplotlib 在 Python 中创建这样的“阈值直方图”?或者至少分割一个单调的数字数组,使得每个子数组至少包含 N 个数字?
此外,这种分箱算法是否被认为是最佳的(因为生成的直方图可以让您更平滑地可视化数据的位置),还是次优的(因为您正在根据自己的优势操纵分箱,而不仅仅是显示数据)数据原样)?
| 归档时间: |
|
| 查看次数: |
942 次 |
| 最近记录: |