我正在使用pyspark 1.6.0.
我有现有的pyspark代码来从AWS S3存储桶读取二进制数据文件.其他Spark/Python代码将解析数据中的位以转换为int,string,boolean等.每个二进制文件都有一个数据记录.
在PYSPARK中,我使用以下方法读取二进制文件:sc.binaryFiles("s3n:// .......")
这很有效,因为它提供了一个(文件名和数据)元组,但我正在尝试找到一个等效的PYSPARK流API来读取二进制文件作为流(希望文件名也是如此).
我试过:binaryRecordsStream(directory,recordLength)
但是我无法让这个工作......
任何人都可以分享一些灯光如何PYSPARK流媒体读取二进制数据文件?