相关疑难解决方法(0)

使用spark-csv编写单个CSV文件

我正在使用https://github.com/databricks/spark-csv,我正在尝试编写单个CSV,但不能,它正在创建一个文件夹.

需要一个Scala函数,它将获取路径和文件名等参数并写入该CSV文件.

csv scala apache-spark spark-csv

92
推荐指数
8
解决办法
17万
查看次数

如何将生成的RDD写入Spark python中的csv文件

我有一个结果RDD labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions).这有以这种格式输出:

[(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]
Run Code Online (Sandbox Code Playgroud)

我想要的是创建一个CSV文件,其中一列labels(上面输出中的元组的第一部分)和一列predictions(元组输出的第二部分).但我不知道如何使用Python在Spark中写入CSV文件.

如何使用上述输出创建CSV文件?

python csv file-writing apache-spark pyspark

21
推荐指数
3
解决办法
7万
查看次数

Amazon S3连接小文件

有没有办法在Amazon S3上连接小于5MB的小文件.由于文件较小,多部件上传不正常.

下拉所有这些文件并进行连接并不是一种有效的解决方案.

那么,任何人都可以告诉我一些API来做这些吗?

concatenation amazon-s3 amazon-web-services

11
推荐指数
2
解决办法
9122
查看次数