如何在Dask DataFrame中创建唯一索引?

Spa*_*tan 6 python dataframe pandas dask dask-dataframe

想象一下我有一个Dask来自read_csv或以其他方式创建的 DataFrame。

如何为 dask 数据框创建唯一索引?

笔记:

reset_index在每个分区中构建单调升序索引。这意味着分区 1 为 (0,1,2,3,4,5,... ),分区 2 为 (0,1,2,3,4,5,... ),(0,1,2 ,3,4,5,... ) 对于分区 3 等等。

我想要数据帧中的每一行(跨所有分区)都有一个唯一的索引。

Spa*_*tan 2

这是我使用map_partitions和真正随机数构建唯一索引的方法(函数),因为简单的reset_index在每个分区中创建一个单调升序索引!

import sys
import random
from dask.distributed import Client

client = Client()

def createDDF_u_idx(ddf):

    def create_u_idx(df):
        rng = random.SystemRandom()
        p_id = str(rng.randint(0, sys.maxsize))

        df['idx'] = [p_id + 'a' + str(x) for x in range(df.index.size)]

        return df
    cols_meta = {c: str(ddf[c].dtype) for c in ddf.columns}
    ddf = ddf.map_partitions(lambda df: create_u_idx(df), meta={**cols_meta, 'idx': 'str'})
    ddf = client.persist(ddf)  # compute up to here, keep results in memory
    ddf = ddf.set_index('idx')

    return ddf
Run Code Online (Sandbox Code Playgroud)