高级描述熊猫

Uni*_*est 3 python statistics pandas

是否有像熊猫所描述的更高级的功能?通常我会继续:

r = pd.DataFrame(np.random.randn(1000), columns = ['A'])
r.describe()
Run Code Online (Sandbox Code Playgroud)

我会得到一个很好的总结.就像这个:

                A
count  1000.000000
mean      0.010230
std       0.982562
min      -2.775969
25%      -0.664840
50%       0.015452
75%       0.694440
max       3.101434
Run Code Online (Sandbox Code Playgroud)

我可以在statsmodels或scipy中找到更精细的东西吗?

小智 9

我宁愿利用 pandas 库(添加方差偏度峰度)而不是使用“外部”库,例如:

    stats = df.describe()
    stats.loc['var'] = df.var().tolist()
    stats.loc['skew'] = df.skew().tolist()
    stats.loc['kurt'] = df.kurtosis().tolist()
    print(stats)
Run Code Online (Sandbox Code Playgroud)

PD:pandas_profiling 确实很棒

耶拉特


pbr*_*ach 7

from scipy.stats import describe
describe(r, axis=0)
Run Code Online (Sandbox Code Playgroud)

它会给你大小,(最小,最大),平均值,方差,偏度和峰度


小智 7

from ydata_profiling import ProfileReport
eda = ProfileReport(df)
display(eda)
Run Code Online (Sandbox Code Playgroud)

Pandas 分析是一个非常强大的工具,它为您提供几乎完整的数据集 EDA,从缺失值、相关性、热图等开始!