将pandas数据框转换为PySpark数据框

Question

将pandas数据框转换为PySpark数据框

kik*_*222 1 python-3.x pandas apache-spark-sql pyspark pyspark-sql

我有以下设置的脚本。

我在用：

1）Spark数据帧以提取数据2）初始聚合后转换为熊猫数据帧3）想要转换回Spark以写入HDFS

从Spark-> Pandas进行的转换很简单，但是我在如何将Pandas数据框转换回Spark方面感到很苦恼。

你能建议吗？

from pyspark.sql import SparkSession
import pyspark.sql.functions as sqlfunc
from pyspark.sql.types import *
import argparse, sys
from pyspark.sql import *
import pyspark.sql.functions as sqlfunc
import pandas as pd

def create_session(appname):
    spark_session = SparkSession\
        .builder\
        .appName(appname)\
        .master('yarn')\
        .config("hive.metastore.uris", "thrift://uds-far-mn1.dab.02.net:9083")\
        .enableHiveSupport()\
        .getOrCreate()
    return spark_session
### START MAIN ###
if __name__ == '__main__':
    spark_session = create_session('testing_files')

Run Code Online (Sandbox Code Playgroud)

我尝试了以下内容-没有错误，只有数据！确认一下，df6确实有数据＆是熊猫数据框

df6 = df5.sort_values(['sdsf'], ascending=["true"])
sdf = spark_session.createDataFrame(df6)
sdf.show()

Run Code Online (Sandbox Code Playgroud)

Answer 1

And*_*rea 7

开始了：

# Spark to Pandas
df_pd = df.toPandas()

# Pandas to Spark
df_sp = spark_session.createDataFrame(df_pd)

Run Code Online (Sandbox Code Playgroud)

感谢您的回复。我已经编辑了帖子以显示尝试此操作-不会出错，但是不会提供任何输出 (2认同)

归档时间：	7 年，9 月前
查看次数：	8362 次
最近记录：	7 年，4 月前