我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个CSV,但不能,它正在创建一个文件夹.
需要一个Scala函数,它将获取路径和文件名等参数并写入该CSV文件.
我有一个结果RDD labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions).这有以这种格式输出:
[(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]
Run Code Online (Sandbox Code Playgroud)
我想要的是创建一个CSV文件,其中一列labels(上面输出中的元组的第一部分)和一列predictions(元组输出的第二部分).但我不知道如何使用Python在Spark中写入CSV文件.
如何使用上述输出创建CSV文件?
有没有办法在Amazon S3上连接小于5MB的小文件.由于文件较小,多部件上传不正常.
下拉所有这些文件并进行连接并不是一种有效的解决方案.
那么,任何人都可以告诉我一些API来做这些吗?
apache-spark ×2
csv ×2
amazon-s3 ×1
file-writing ×1
pyspark ×1
python ×1
scala ×1
spark-csv ×1