Mic*_*man 8 python serialization apache-spark rdd pyspark
我的数据以Python 3 pickle文件集的形式提供.其中大多数是熊猫的序列化DataFrames.
我想开始使用Spark,因为我需要一台计算机可以拥有的更多内存和CPU.此外,我将使用HDFS进行分布式存储.
作为初学者,我没有找到解释如何使用pickle文件作为输入文件的相关信息.
它存在吗?如果没有,有任何解决方法吗?
非常感谢
很大程度上取决于数据本身.一般来说,当Spark必须读取大文件而不是可拆分文件时,它的表现并不是特别好.不过,您可以尝试使用binaryFiles方法并将其与标准Python工具结合使用.让我们从虚拟数据开始:
import tempfile
import pandas as pd
import numpy as np
outdir = tempfile.mkdtemp()
for i in range(5):
pd.DataFrame(
np.random.randn(10, 2), columns=['foo', 'bar']
).to_pickle(tempfile.mkstemp(dir=outdir)[1])
Run Code Online (Sandbox Code Playgroud)
接下来我们可以使用bianryFiles方法阅读它:
rdd = sc.binaryFiles(outdir)
Run Code Online (Sandbox Code Playgroud)
并反序列化单个对象:
import pickle
from io import BytesIO
dfs = rdd.values().map(lambda p: pickle.load(BytesIO(p)))
dfs.first()[:3]
## foo bar
## 0 -0.162584 -2.179106
## 1 0.269399 -0.433037
## 2 -0.295244 0.119195
Run Code Online (Sandbox Code Playgroud)
一个重要的注意事项是它通常需要比简单方法更多的内存textFile.
另一种方法是仅并行化路径并使用可以直接从分布式文件系统(如hdfs3)读取的库.这通常意味着以更差的数据位置为代价降低内存需求.
考虑到这两个事实,通常最好以可以加载更高粒度的格式序列化数据.
注意:
SparkContext提供pickleFile方法,但名称可能会误导.它可用于读取SequenceFiles包含pickle对象而不是普通的Python pickle.
| 归档时间: |
|
| 查看次数: |
5282 次 |
| 最近记录: |