相关疑难解决方法(0)

如何使用JDBC源在(Py)Spark中写入和读取数据？

这个问题的目标是记录:

在PySpark中使用JDBC连接读取和写入数据所需的步骤
JDBC源和已知解决方案可能存在的问题

通过小的更改,这些方法应该与其他支持的语言一起使用,包括Scala和R.

python scala apache-spark apache-spark-sql pyspark

zer*_*323

2016 03-13

57
推荐指数

1
解决办法

6万
查看次数

如何使用DataFrame和JDBC连接提高慢速Spark作业的性能？

我试图在单个节点(local [*])上以独立模式通过JDBC访问中型Teradata表(约1亿行).

我正在使用Spark 1.4.1.并且设置在一个非常强大的机器上(2个CPU,24个内核,126G RAM).

我已经尝试了几种内存设置和调整选项,以使其更快地工作,但它们都没有产生巨大的影响.

我确信有一些我缺少的东西,下面是我的最后一次尝试,花了大约11分钟来获得这个简单的计数与使用JDBC连接通过R只需要40秒来获得计数.

bin/pyspark --driver-memory 40g --executor-memory 40g

df = sqlContext.read.jdbc("jdbc:teradata://......)
df.count()

Run Code Online (Sandbox Code Playgroud)

当我尝试使用BIG表(5B记录)时,在完成查询后没有返回任何结果.

teradata apache-spark pyspark spark-dataframe

Dev*_*tel

2015 08-25

8
推荐指数

2
解决办法

1万
查看次数

是否可以在Sparklyr中将ORC文件读取到Spark数据框？

我知道sparklyr有以下读取文件方法:

spark_read_csv
spark_read_parquet
spark_read_json

那么阅读orc文件怎么样？这个图书馆是否支持它？

我知道我可以在SparkR或者这个解决方案中使用read.orc,但是我想把我的代码保存在sparklyr中.

r apache-spark sparkr orc sparklyr

mrj*_*eph

2017 08-09

3
推荐指数

1
解决办法

1005
查看次数

标签统计

apache-spark ×3

pyspark ×2

apache-spark-sql ×1

orc ×1

python ×1

r ×1

scala ×1

spark-dataframe ×1

sparklyr ×1

sparkr ×1

teradata ×1

如何使用JDBC源在(Py)Spark中写入和读取数据？

如何使用DataFrame和JDBC连接提高慢速Spark作业的性能？

是否可以在Sparklyr中将ORC文件读取到Spark数据框？

标签 统计

标签统计