小编Tal*_*lis的帖子

如何将 Pandas 中的一列列表转换为 Python 中唯一值的稀疏 DataFrame

对于每一行 id,我都有一个值列表作为熊猫列。结构如下:

df = {'id1':[['a','b','c','d']],'id2':[['a','d','e','j']],'id3':[['b','d','i','q']]},
df = pd.DataFrame.from_dict(df,orient='index')
Run Code Online (Sandbox Code Playgroud)

这给了我:

数据集_示例

起初,我使用以下代码在侧面创建了一组唯一值:

l = df.values.tolist()
flat_set = {item for sublist in l for item in sublist}

Run Code Online (Sandbox Code Playgroud)

最后,我需要得到一个稀疏版本:

在此处输入图片说明

笔记:

  1. 不。集合中的唯一值 - 100K~
  2. 不。ids - 60K~

如果缩短列的名称会导致内存减少,我不介意保留一个字典,但对我来说,从列表解包到稀疏是困难的部分。

请帮忙 :)

python list sparse-matrix dataframe pandas

1
推荐指数
1
解决办法
403
查看次数

标签 统计

dataframe ×1

list ×1

pandas ×1

python ×1

sparse-matrix ×1