相关疑难解决方法(0)

我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个CSV,但不能,它正在创建一个文件夹.

需要一个Scala函数,它将获取路径和文件名等参数并写入该CSV文件.

92
推荐指数

8
解决办法

17万
查看次数

我有一个结果RDD labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions).这有以这种格式输出:

[(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]

我想要的是创建一个CSV文件,其中一列labels(上面输出中的元组的第一部分)和一列predictions(元组输出的第二部分).但我不知道如何使用Python在Spark中写入CSV文件.

如何使用上述输出创建CSV文件？

21
推荐指数

3
解决办法

7万
查看次数

有没有办法在Amazon S3上连接小于5MB的小文件.由于文件较小,多部件上传不正常.

下拉所有这些文件并进行连接并不是一种有效的解决方案.

那么,任何人都可以告诉我一些API来做这些吗？

11
推荐指数

2
解决办法

9122
查看次数

csv ×2