小编yhw*_*w82的帖子

我正在使用pyspark 1.6.0.

我有现有的pyspark代码来从AWS S3存储桶读取二进制数据文件.其他Spark/Python代码将解析数据中的位以转换为int,string,boolean等.每个二进制文件都有一个数据记录.

在PYSPARK中,我使用以下方法读取二进制文件:sc.binaryFiles("s3n:// .......")

这很有效,因为它提供了一个(文件名和数据)元组,但我正在尝试找到一个等效的PYSPARK流API来读取二进制文件作为流(希望文件名也是如此).

我试过:binaryRecordsStream(directory,recordLength)

但是我无法让这个工作......

任何人都可以分享一些灯光如何PYSPARK流媒体读取二进制数据文件？

5
推荐指数

1
解决办法

1305
查看次数

小编yhw_w82的帖子