Eri*_*Kim 5 python statistics distribution matplotlib probability-density
我想将拟合分布转换为频率。
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib notebook
# sample data generation
np.random.seed(42)
data = sorted(stats.lognorm.rvs(s=0.5, loc=1, scale=1000, size=1000))
# fit lognormal distribution
shape, loc, scale = stats.lognorm.fit(data, loc=0)
pdf_lognorm = stats.lognorm.pdf(data, shape, loc, scale)
fig, ax = plt.subplots(figsize=(8, 4))
ax.hist(data, bins='auto', density=True)
ax.plot(data, pdf_lognorm)
ax.set_ylabel('probability')
ax.set_title('Linear Scale')
Run Code Online (Sandbox Code Playgroud)
上面的代码片段将生成以下图:
正如您所看到的,y 轴表示概率。但我希望它是在频率方面。
fig, ax = plt.subplots(figsize=(8, 4))
ax.hist(data, bins='auto')
ax.set_ylabel('probability')
ax.set_title('Linear Scale')
Run Code Online (Sandbox Code Playgroud)
通过取消设置density=True
,直方图将按照频率显示。但我不知道如何以与直方图中相同的方式拟合分布 - 观察我如何无法在此直方图中绘制橙色拟合线。
我怎样才能做到这一点?我认为我应该将拟合分布与直方图曲线下的面积相乘,但我不知道该怎么做。
从科学上讲,确实可以预期,由于您决定也绘制密度,因此 y 轴将采用概率,而不是计数......
不过,您可以同时使用双轴和twinx
:
fig, ax = plt.subplots(figsize=(8, 4))
ax2 = ax.twinx()
ax.hist(data, bins='auto', density=True)
ax2.hist(data, bins='auto')
ax.plot(data, pdf_lognorm)
ax2.set_ylabel('frequency')
ax.set_ylabel('probability')
ax.set_title('Linear Scale')][1]][1]
Run Code Online (Sandbox Code Playgroud)
我还使用了更合适的术语“频率”来表示计数。
进行一些实验,您甚至可以将密度曲线放在前面,或者互换轴:
fig, ax = plt.subplots(figsize=(8, 4))
ax2 = ax.twinx()
ax2.hist(data, bins='auto', density=True)
ax.hist(data, bins='auto')
ax2.plot(data, pdf_lognorm)
ax2.set_ylabel('probability')
ax.set_ylabel('frequency')
ax.set_title('Linear Scale')
Run Code Online (Sandbox Code Playgroud)