小编Pra*_*arg的帖子

了解 IAM 通行证

我无法理解 IAM Passrole 的使用。谁能用简单的例子解释一下?我指的是页面:https : //docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_use_passrole.html,但没有多大意义。

amazon-web-services amazon-iam

9
推荐指数
3
解决办法
6901
查看次数

百分位函数如何在Hive中起作用?

请将输入数据设置为:68 69 43 54 56 61 69 70 71 72 77 78 79 85 87 88 89 93 95 96 98 99 99 62 66

根据百分位数函数[百分位数(id),0.9]得到输出为97.2

hadoop hive hiveql

6
推荐指数
1
解决办法
2万
查看次数

BROADCASTJOIN 提示在 PySpark SQL 中不起作用

我试图向尺寸较小的表提供广播提示,但物理计划仍然向我显示 SortMergeJoin。

spark.sql('select /*+ BROADCAST(pratik_test_temp.crosswalk2016) */ * from pratik_test_staging.crosswalk2016 t join pratik_test_temp.crosswalk2016 c on t.serial_id = c.serial_id').explain()

输出 : 在此输入图像描述

笔记 :

  1. 表的大小以 KB 为单位(测试数据)
  2. 连接列“serial_id”不是分区列
  3. 使用glue目录作为元存储(AWS)
  4. Spark版本-Spark 2.4.4
  5. 我也尝试过 BROADCASTJOIN 和 MAPJOIN 提示
  6. 当我尝试使用created_date[分区列] 而不是serial_id作为我的加入条件时,它向我显示广播加入 -

spark.sql('select /*+ BROADCAST(pratik_test_temp.crosswalk2016) */ * from pratik_test_staging.crosswalk2016 t join pratik_test_temp.crosswalk2016 c on t.created_date = c.created_date').explain()

输出 - 在此输入图像描述

为什么使用 AWS Glue Catalog 作为我的元存储时 Spark 行为很奇怪?

apache-spark apache-spark-sql pyspark aws-glue-data-catalog

1
推荐指数
1
解决办法
2149
查看次数