jan*_*cki 8 apache-spark pyspark feather pyarrow
我有羽毛格式文件sales.fea,我用它来交换python和R 之间的数据.
在RI中使用以下命令:
df = as.data.frame(feather::read_feather("sales.fea"))
Run Code Online (Sandbox Code Playgroud)
在python我用过:
df = feather.read_dataframe("sales.fea")
Run Code Online (Sandbox Code Playgroud)
将数据从该文件加载到内存到Spark实例的最快/最佳方法是什么pyspark?
我不想使用pandas来加载数据,因为它是我的19GB羽毛文件的段错误,由45GB csv创建.
我的想法是,Spark是如此时髦,也是羽毛,我希望有一些更本土化的方式,而不是通过次高效的临时解决方案.
小智 -3
您可以将 pandas 数据帧转换为 Spark 数据帧,如下所示。
from pyspark.sql import SQLContext, Row
sqlContext = SQLContext(sc)
spark_df = sqlContext.createDataFrame(pandas_df)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
891 次 |
| 最近记录: |