Jac*_*iel 34 python apache-spark pyspark spark-dataframe
我试图将Spark RDD转换为DataFrame.我已经看到了将方案传递给sqlContext.CreateDataFrame(rdd,schema)
函数的文档和示例
.
但我有38列或字段,这将进一步增加.如果我手动给出指定每个字段信息的模式,那将会是如此繁琐的工作.
有没有其他方法可以在不知道先前列的信息的情况下指定模式.
Thi*_*dim 63
看到,
在Spark中有两种方法可以将RDD转换为DF.
toDF()
和 createDataFrame(rdd, schema)
我会告诉你如何动态地做到这一点.
该toDF()
命令为您提供了将数据转换RDD[Row]
为Dataframe的方法.关键是,对象Row()
可以接收**kwargs
参数.所以,有一种简单的方法可以做到这一点.
from pyspark.sql.types import Row
#here you are going to create a function
def f(x):
d = {}
for i in range(len(x)):
d[str(i)] = x[i]
return d
#Now populate that
df = rdd.map(lambda x: Row(**f(x))).toDF()
Run Code Online (Sandbox Code Playgroud)
这样您就可以动态创建数据框.
其他方法是创建动态模式.怎么样?
这条路:
from pyspark.sql.types import StructType
from pyspark.sql.types import StructField
from pyspark.sql.types import StringType
schema = StructType([StructField(str(i), StringType(), True) for i in range(32)])
df = sqlContext.createDataFrame(rdd, schema)
Run Code Online (Sandbox Code Playgroud)
第二种方式更干净...
这就是你如何动态创建数据帧.
归档时间: |
|
查看次数: |
75699 次 |
最近记录: |