Mat*_*ias 2 python hadoop pandas apache-spark pyspark
想象一下,您正在通过 SparkContext 和 Hive 加载一个大型数据集。所以这个数据集然后分布在你的 Spark 集群中。例如,对数千个变量的观察(值 + 时间戳)。
现在您将使用一些 map/reduce 方法或聚合来组织/分析您的数据。例如按变量名称分组。
分组后,您可以获得每个变量的所有观察值(值)作为时间序列数据框。如果您现在使用 DataFrame.toPandas
def myFunction(data_frame):
data_frame.toPandas()
df = sc.load....
df.groupBy('var_name').mapValues(_.toDF).map(myFunction)
Run Code Online (Sandbox Code Playgroud)
DataFrame
在这种情况下,Pandas 没有什么特别之处。
DataFrame
是通过 usingtoPandas
方法创建的,pyspark.sql.dataframe.DataFrame
它收集数据并在驱动程序上创建本地 Python 对象。pandas.core.frame.DataFrame
是在 executor 进程中创建的(例如 inmapPartitions
),您只需获取RDD[pandas.core.frame.DataFrame]
. Pandas 对象之间没有区别,比如说 a tuple
。DataFrame
(我假设这就是您的意思_.toDF
)。