小编C. *_* L.的帖子

如何在dask中找到数据帧的长度?

如何使用dask找到数据帧的长度?

例如在熊猫中,我可以这样做:

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.normal(0, 1, (5, 2)), columns=["A", "B"])
print df['A'].count()
print df
Run Code Online (Sandbox Code Playgroud)

输出:

5
          A         B
0  1.538531  0.424717
1 -0.929843  1.323648
2 -1.283680  0.056199
3 -0.641035 -1.998241
4 -0.058598 -1.400637
Run Code Online (Sandbox Code Playgroud)

在dask我尝试:

import dask.dataframe as dd
df_dask = dd.from_pandas(df, npartitions=3)
print df_dask
print df_dask['A'].count()
Run Code Online (Sandbox Code Playgroud)

输出:

                     A        B
npartitions=2                  
0              float64  float64
2                  ...      ...
4                  ...      ...
Dask Name: from_pandas, 2 tasks

dd.Scalar<series-..., dtype=int32>
Run Code Online (Sandbox Code Playgroud)

我需要长度的真正原因是因为df_dask.sample()需要一小部分,我想从数据帧中抽取指定数量的条目.我使用长度来计算这个分数.有更简单/更快的方法吗?

python pandas dask

4
推荐指数
1
解决办法
3213
查看次数

标签 统计

dask ×1

pandas ×1

python ×1