小编Pra_arg的帖子

了解 IAM 通行证

我无法理解 IAM Passrole 的使用。谁能用简单的例子解释一下？我指的是页面：https : //docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_use_passrole.html，但没有多大意义。

amazon-web-services amazon-iam

9
推荐指数

3
解决办法

6901
查看次数

百分位函数如何在Hive中起作用？

请将输入数据设置为:68 69 43 54 56 61 69 70 71 72 77 78 79 85 87 88 89 93 95 96 98 99 99 62 66

根据百分位数函数[百分位数(id),0.9]得到输出为97.2

hadoop hive hiveql

6
推荐指数

1
解决办法

2万
查看次数

BROADCASTJOIN 提示在 PySpark SQL 中不起作用

我试图向尺寸较小的表提供广播提示，但物理计划仍然向我显示 SortMergeJoin。

spark.sql('select /*+ BROADCAST(pratik_test_temp.crosswalk2016) */ * from pratik_test_staging.crosswalk2016 t join pratik_test_temp.crosswalk2016 c on t.serial_id = c.serial_id').explain()

输出：

笔记：

表的大小以 KB 为单位（测试数据）
连接列“serial_id”不是分区列
使用glue目录作为元存储（AWS）
Spark版本-Spark 2.4.4
我也尝试过 BROADCASTJOIN 和 MAPJOIN 提示
当我尝试使用created_date[分区列] 而不是serial_id作为我的加入条件时，它向我显示广播加入 -

spark.sql('select /*+ BROADCAST(pratik_test_temp.crosswalk2016) */ * from pratik_test_staging.crosswalk2016 t join pratik_test_temp.crosswalk2016 c on t.created_date = c.created_date').explain()

输出 -

为什么使用 AWS Glue Catalog 作为我的元存储时 Spark 行为很奇怪？

apache-spark apache-spark-sql pyspark aws-glue-data-catalog

1
推荐指数

1
解决办法

2149
查看次数

标签统计

amazon-web-services ×1

apache-spark ×1

apache-spark-sql ×1

aws-glue-data-catalog ×1

hive ×1