小编nag*_*dra的帖子

spark检查点和持久存储到磁盘之间有什么区别

spark检查点和持久存储到磁盘之间有什么区别.这些都存储在本地磁盘中吗？

apache-spark

nag*_*dra

2016 02-01

53
推荐指数

3
解决办法

3万
查看次数

如何在Spark SQL中控制分区大小

我需要使用Spark SQL从Hive表加载数据HiveContext并加载到HDFS中.默认情况下,DataFramefrom SQL输出有2个分区.为了获得更多的并行性,我需要更多的SQL分区.HiveContext中没有重载方法来获取分区数参数.

RDD的重新分区导致改组并导致更多的处理时间.

val result = sqlContext.sql("select * from bt_st_ent")

Run Code Online (Sandbox Code Playgroud)

有日志输出:

Starting task 0.0 in stage 131.0 (TID 297, aster1.com, partition 0,NODE_LOCAL, 2203 bytes)
Starting task 1.0 in stage 131.0 (TID 298, aster1.com, partition 1,NODE_LOCAL, 2204 bytes)

Run Code Online (Sandbox Code Playgroud)

我想知道有没有办法增加SQL输出的分区大小.

hive partitioning apache-spark apache-spark-sql

nag*_*dra

2019 01-07

22
推荐指数

2
解决办法

9042
查看次数

什么是幽灵？它与mapPartitions有何不同？

我glom()在RDD上遇到过这个方法.根据文档

返回通过将每个分区中的所有元素合并为数组而创建的RDD

是否会glom跨分区对数据进行混洗,还是仅将分区数据作为数组返回？在后一种情况下,我相信可以使用相同的方法来实现mapPartitions.

我还想知道是否有任何用例受益glom.

apache-spark rdd

nag*_*dra

2016 09-17

11
推荐指数

2
解决办法

7846
查看次数

为什么Spark会将Map阶段输出保存到本地磁盘？

我正在努力深刻理解火花洗牌过程.当我开始阅读时,我遇到了以下几点.

Spark在完成时将Map任务(ShuffleMapTask)输出直接写入磁盘.

我想了解Hadoop MapReduce的以下内容.

如果Map-Reduce和Spark都将数据写入本地磁盘,那么spark shuffle进程与Hadoop MapReduce有何不同？
由于数据在Spark中表示为RDD,为什么这些输出不会保留在节点执行程序内存中？
Hadoop MapReduce和Spark的Map任务输出有何不同？
如果有很多小的中间文件作为输出,火花如何处理网络和I/O瓶颈？

mapreduce apache-spark rdd

nag*_*dra

2017 03-01

7
推荐指数

2
解决办法

2133
查看次数

Spark:火花中的接收器是否成为瓶颈？

我想了解接收器如何在Spark Streaming中工作.根据我的理解,将有一个接收器任务在执行器中运行,它们收集数据并保存为RDD.调用start()时,接收器开始读取.需要澄清以下内容.

Spark Streaming作业启动了多少个接收器？多个还是一个？
接收器是实现为基于推送还是基于拉？
在任何情况下接收器都可能成为瓶颈？
为了实现并行度,应该跨工作节点对数据进行分区.因此,对于流数据,数据如何在节点之间分布.
如果基于批处理时间间隔在新节点上形成新的RDD,那么在提交作业后,SparkContext如何将转换函数序列化到节点？
接收器的发射量可以由参数控制吗？

想了解Spark Streaming和接收器的解剖结构.

apache-spark spark-streaming

nag*_*dra

2016 03-15

5
推荐指数

1
解决办法

1249
查看次数

标签统计

apache-spark ×5

rdd ×2

apache-spark-sql ×1

hive ×1

mapreduce ×1

partitioning ×1

spark-streaming ×1

spark检查点和持久存储到磁盘之间有什么区别

如何在Spark SQL中控制分区大小

什么是幽灵？它与mapPartitions有何不同？

为什么Spark会将Map阶段输出保存到本地磁盘？

Spark:火花中的接收器是否成为瓶颈？

标签 统计

小编nag_dra的帖子

标签统计