Spark RDD到DataFrame python

Jac*_*iel 34 python apache-spark pyspark spark-dataframe

我试图将Spark RDD转换为DataFrame.我已经看到了将方案传递给sqlContext.CreateDataFrame(rdd,schema)函数的文档和示例 .

但我有38列或字段,这将进一步增加.如果我手动给出指定每个字段信息的模式,那将会是如此繁琐的工作.

有没有其他方法可以在不知道先前列的信息的情况下指定模式.

Thi*_*dim 63

看到,

在Spark中有两种方法可以将RDD转换为DF.

toDF()createDataFrame(rdd, schema)

我会告诉你如何动态地做到这一点.

toDF()

toDF()命令为您提供了将数据转换RDD[Row]为Dataframe的方法.关键是,对象Row()可以接收**kwargs参数.所以,有一种简单的方法可以做到这一点.

from pyspark.sql.types import Row

#here you are going to create a function
def f(x):
    d = {}
    for i in range(len(x)):
        d[str(i)] = x[i]
    return d

#Now populate that
df = rdd.map(lambda x: Row(**f(x))).toDF()
Run Code Online (Sandbox Code Playgroud)

这样您就可以动态创建数据框.

createDataFrame(rdd,schema)

其他方法是创建动态模式.怎么样?

这条路:

from pyspark.sql.types import StructType
from pyspark.sql.types import StructField
from pyspark.sql.types import StringType

schema = StructType([StructField(str(i), StringType(), True) for i in range(32)])

df = sqlContext.createDataFrame(rdd, schema)
Run Code Online (Sandbox Code Playgroud)

第二种方式更干净...

这就是你如何动态创建数据帧.

  • 我拒绝投票,因为这将所有字段都转换为字符串。OP说他不知道什么列会提前。他怎么会知道它们是琴弦? (5认同)