KOU*_*DAL 6 java mysql jdbc amazon-s3 apache-spark
我在亚马逊s3中有csv文件,大小为62mb(114000行).我正在将其转换为spark数据集,并从中获取前500行.代码如下;
DataFrameReader df = new DataFrameReader(spark).format("csv").option("header", true);
Dataset<Row> set=df.load("s3n://"+this.accessId.replace("\"", "")+":"+this.accessToken.replace("\"", "")+"@"+this.bucketName.replace("\"", "")+"/"+this.filePath.replace("\"", "")+"");
set.take(500)
Run Code Online (Sandbox Code Playgroud)
整个操作需要20到30秒.
现在我尝试相同但是使用csv我正在使用带有119 000行的mySQL表.MySQL服务器在亚马逊ec2.代码如下;
String url ="jdbc:mysql://"+this.hostName+":3306/"+this.dataBaseName+"?user="+this.userName+"&password="+this.password;
SparkSession spark=StartSpark.getSparkSession();
SQLContext sc = spark.sqlContext();
DataFrameReader df = new DataFrameReader(spark).format("csv").option("header", true);
Dataset<Row> set = sc
.read()
.option("url", url)
.option("dbtable", this.tableName)
.option("driver","com.mysql.jdbc.Driver")
.format("jdbc")
.load();
set.take(500);
Run Code Online (Sandbox Code Playgroud)
这需要5到10分钟.我在jvm里面运行火花.在两种情况下使用相同的配置.
我可以使用partitionColumn,numParttition等但我没有任何数字列,还有一个问题是我不知道该表的模式.
我的问题不是如何减少所需的时间,因为我知道在理想情况下火花将在集群中运行,但我无法理解的是为什么在上述两种情况下这个大的时间差异?
小智 9
StackOverflow上已多次覆盖此问题:
在外部资源中:
所以重申 - 默认情况下DataFrameReader.jdbc
不分发数据或读取.它使用单线程,单个exectuor.
分发阅读:
使用范围与lowerBound
/ upperBound
:
Properties properties;
Lower
Dataset<Row> set = sc
.read()
.option("partitionColumn", "foo")
.option("numPartitions", "3")
.option("lowerBound", 0)
.option("upperBound", 30)
.option("url", url)
.option("dbtable", this.tableName)
.option("driver","com.mysql.jdbc.Driver")
.format("jdbc")
.load();
Run Code Online (Sandbox Code Playgroud)predicates
Properties properties;
Dataset<Row> set = sc
.read()
.jdbc(
url, this.tableName,
{"foo < 10", "foo BETWWEN 10 and 20", "foo > 20"},
properties
)
Run Code Online (Sandbox Code Playgroud) 归档时间: |
|
查看次数: |
2233 次 |
最近记录: |