Spark Streaming - 处理二进制数据文件

yhw*_*w82 5 spark-streaming pyspark

我正在使用pyspark 1.6.0.

我有现有的pyspark代码来从AWS S3存储桶读取二进制数据文件.其他Spark/Python代码将解析数据中的位以转换为int,string,boolean等.每个二进制文件都有一个数据记录.

在PYSPARK中,我使用以下方法读取二进制文件:sc.binaryFiles("s3n:// .......")

这很有效,因为它提供了一个(文件名和数据)元组,但我正在尝试找到一个等效的PYSPARK流API来读取二进制文件作为流(希望文件名也是如此).

我试过:binaryRecordsStream(directory,recordLength)

但是我无法让这个工作......

任何人都可以分享一些灯光如何PYSPARK流媒体读取二进制数据文件?

JuJ*_*oDi 1

在 Spark Streaming 中,相关概念是 fileStream API,它在 Scala 和 Java 中可用,但在 Python 中不可用 - 在文档中注明:http://spark.apache.org/docs/latest/streaming-programming-guide .html#basic-sources。如果您正在读取的文件可以作为文本文件读取,则可以使用textFileStream API