我需要从二进制文件中读取数据。这些文件很小,大约为,因此逐个文件地1 MB使用和处理它们可能效率不高(开销太大)。binaryFiles()
1 MB
binaryFiles()
我可以将它们加入到一个大文件中,然后使用binaryRecords(),但记录大小只是512 bytes,所以我想将几条记录连接在一起,以产生数十兆字节大小的块。二进制文件格式允许这样做。
binaryRecords()
512 bytes
我怎样才能实现这个目标?更一般地说:这是解决问题的正确方法吗?
谢谢!
apache-spark pyspark
apache-spark ×1
pyspark ×1