如何在Dask DataFrame中创建唯一索引？

Question

如何在Dask DataFrame中创建唯一索引？

Spa*_*tan 6 python dataframe pandas dask dask-dataframe

想象一下我有一个Dask来自read_csv或以其他方式创建的 DataFrame。

如何为 dask 数据框创建唯一索引？

笔记：

reset_index在每个分区中构建单调升序索引。这意味着分区 1 为 (0,1,2,3,4,5,... )，分区 2 为 (0,1,2,3,4,5,... )，(0,1,2 ,3,4,5,... ) 对于分区 3 等等。

我想要数据帧中的每一行（跨所有分区）都有一个唯一的索引。

Answer 1

Spa*_*tan 2

这是我使用map_partitions和真正随机数构建唯一索引的方法（函数），因为简单的reset_index在每个分区中创建一个单调升序索引！

import sys
import random
from dask.distributed import Client

client = Client()

def createDDF_u_idx(ddf):

    def create_u_idx(df):
        rng = random.SystemRandom()
        p_id = str(rng.randint(0, sys.maxsize))

        df['idx'] = [p_id + 'a' + str(x) for x in range(df.index.size)]

        return df
    cols_meta = {c: str(ddf[c].dtype) for c in ddf.columns}
    ddf = ddf.map_partitions(lambda df: create_u_idx(df), meta={**cols_meta, 'idx': 'str'})
    ddf = client.persist(ddf)  # compute up to here, keep results in memory
    ddf = ddf.set_index('idx')

    return ddf

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，4 月前
查看次数：	2185 次
最近记录：	3 年，2 月前