相关疑难解决方法(0)

Pyspark向数据帧添加顺序和确定性索引

我需要使用三个非常简单的约束将索引列添加到数据框:

  • 从0开始

  • 是顺序的

  • 确定性的

我确定我遗漏了一些明显的东西,因为对于这样一个简单的任务,或者使用非顺序,不确定性越来越单调的id,我发现的示例看起来非常复杂。我不想使用index压缩,然后不得不将以前分开的列现在分开放在单列中,因为我的数据帧在TB中,这似乎是不必要的。我不需要按任何分区,也不需要按任何顺序进行分区,而我所找到的示例可以做到这一点(使用窗口函数和row_number)。我需要的只是一个简单的0到df.count整数序列。我在这里想念什么?

12345

indexing pyspark

3
推荐指数
1
解决办法
1601
查看次数

标签 统计

indexing ×1

pyspark ×1