小编sve*_*sve的帖子

Spark RDD - 避免shuffle - 分区是否有助于处理大文件？

我有一个大约10个平面文件的应用程序,每个文件的价值超过200MM +记录.业务逻辑涉及按顺序连接所有这些逻辑.

我的环境:1个主站 - 3个从站(用于测试我为每个节点分配了1GB内存)

大多数代码只针对每个连接执行以下操作

 RDD1 = sc.textFile(file1).mapToPair(..)

 RDD2 = sc.textFile(file2).mapToPair(..) 

 join = RDD1.join(RDD2).map(peopleObject)

Run Code Online (Sandbox Code Playgroud)

任何调整建议,如重新分区,并行化......？如果是这样,有什么最佳做法可以提出重新分配的好数字？

使用当前配置,该作业需要一个多小时,我看到几乎每个文件的shuffle写入> 3GB

apache-spark spark-dataframe

sve*_*sve

2016 05-30

5
推荐指数

0
解决办法

2127
查看次数

Spring Batch - 从Aws S3读取文件

我正在尝试从AWS S3读取文件并使用Spring Batch处理它:

Spring Itemreader可以处理此任务吗？如果是这样,我如何将凭据传递给S3客户端并配置我的spring xml来读取一个或多个文件

<bean id="itemReader" class=""org.springframework.batch.item.file.FlatFileItemReader"">
    <property name="resource" value=""${aws.file.name}"" />
    </bean>

Run Code Online (Sandbox Code Playgroud)

java spring amazon-s3 spring-xd

sve*_*sve

2015 06-15

4
推荐指数

1
解决办法

6709
查看次数

标签统计

amazon-s3 ×1

apache-spark ×1

java ×1

spark-dataframe ×1

spring ×1

spring-xd ×1

Spark RDD - 避免shuffle - 分区是否有助于处理大文件？

Spring Batch - 从Aws S3读取文件

标签 统计

小编sve_sve的帖子

标签统计