Spa*_*tan 6 python dataframe pandas dask dask-dataframe
想象一下我有一个Dask来自read_csv或以其他方式创建的 DataFrame。
如何为 dask 数据框创建唯一索引?
笔记:
reset_index在每个分区中构建单调升序索引。这意味着分区 1 为 (0,1,2,3,4,5,... ),分区 2 为 (0,1,2,3,4,5,... ),(0,1,2 ,3,4,5,... ) 对于分区 3 等等。
我想要数据帧中的每一行(跨所有分区)都有一个唯一的索引。
这是我使用map_partitions和真正随机数构建唯一索引的方法(函数),因为简单的reset_index在每个分区中创建一个单调升序索引!
import sys
import random
from dask.distributed import Client
client = Client()
def createDDF_u_idx(ddf):
def create_u_idx(df):
rng = random.SystemRandom()
p_id = str(rng.randint(0, sys.maxsize))
df['idx'] = [p_id + 'a' + str(x) for x in range(df.index.size)]
return df
cols_meta = {c: str(ddf[c].dtype) for c in ddf.columns}
ddf = ddf.map_partitions(lambda df: create_u_idx(df), meta={**cols_meta, 'idx': 'str'})
ddf = client.persist(ddf) # compute up to here, keep results in memory
ddf = ddf.set_index('idx')
return ddf
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2185 次 |
| 最近记录: |