访问PySpark数据框中的特定项目

zim*_*mer 5 python dataframe pyspark

例如,我如何访问PySpark数据帧中某个列的某个索引处的值,例如,我想访问名为“ Category”的列的索引5处的值。如何使用PySpark语法做到这一点?

may*_*wal 7

像这样

value = df.where(df.index == 5).select('Category').collect()[0]['Category']
                                         #assuming 'index' is index column
Run Code Online (Sandbox Code Playgroud)

  • 谢谢@mayank agrawal 但如果我的数据没有任何索引列怎么办? (2认同)
  • 然后,您必须找到一些要根据其进行过滤的标识符列。Pyspark提供了一种向数据添加索引的方法,但是您不能确定所需的第5个索引是否与火花分配相同。 (2认同)