小编Dip*_*kar的帖子

Spark RDD - 是否总是在RAM中的分区?

我们都知道Spark会在内存中进行计算.我只是好奇以下.

  1. 如果我RDD从HDFS在我的pySpark shell中创建10 ,它是否意味着所有这些10 RDD秒数据将驻留在Spark Workers Memory上?

  2. 如果我不删除RDD,它会永远存在于内存中吗?

  3. 如果我的数据集(文件)大小超过可用的RAM大小,那么数据将存储在何处?

hadoop hdfs apache-spark rdd pyspark

15
推荐指数
2
解决办法
6928
查看次数

可以Spark替换ETL工具

现有过程-将原始结构数据复制到Redshift的登台层中。然后使用ETL工具(例如Informatica,Telend)将增量加载到Datamart / datawarehouse的Fact和Dimension表中。所有联接都发生在数据库层中(ETL将查询推送到数据库中)-Spark是否可以替换ETL工具并进行相同的处理并将数据加载到Redshift?-这种架构的优点和缺点是什么?

etl data-warehouse amazon-web-services apache-spark pyspark-sql

6
推荐指数
1
解决办法
1549
查看次数

在 Spark 与 Redshift 上执行查询

我们的数据仓库位于 Redshift(50TB 大小)中。有时,业务用户会运行大型查询(太多联接、内联查询 - 由 Tableau 等 BI 工具生成)。大查询会降低数据库性能。

  1. 在 Redshift 之上使用 Spark 来卸载 Redshift 之外的一些计算是否明智?

  2. 或者通过添加更多节点来提高 Redshift 计算能力会更容易且更具成本效益吗?

  3. 如果我在 Spark 中执行select a.col1, b.col2 from table1 a, table2 b where a.key = b.key。表通过 JDBC 连接并驻留在 Redshift 上,实际处理在哪里发生(在 Spark 或 Redshift 中)?

data-warehouse amazon-redshift apache-spark

2
推荐指数
1
解决办法
1609
查看次数