小编Eug*_*Cuz的帖子

sortWithinPartitions 是如何排序的？

将 sortWithinPartitions 应用于 df 并将输出写入表后，我得到了一个结果，但我不知道如何解释。

df
.select($"type", $"id", $"time")
.sortWithinPartitions($"type", $"id", $"time")

Run Code Online (Sandbox Code Playgroud)

结果文件看起来有点像

Run Code Online (Sandbox Code Playgroud)

它实际上不是随机的，但也不像我期望的那样排序。即，首先按类型，然后是 id，然后是时间。如果我尝试在排序之前使用重新分区，那么我会得到我想要的结果。但由于某种原因，文件的重量增加了 5 倍（100GB 与 20GB）。

我正在向 hive orc 表写入数据，并将压缩设置为 snappy。

有谁知道为什么它是这样排序的，以及为什么重新分区会得到正确的顺序，但尺寸更大？

使用火花2.2。

columnsorting snappy apache-spark orc

Eug*_*Cuz

lucky-day

5
推荐指数

1
解决办法

9693
查看次数

如何在Hive中创建表的空副本

我的桌子上有很多列。我不想写像

CREATE TABLE IF NOT EXISTS 
table1( 
col1 int, 
col2 String,
etc....)

Run Code Online (Sandbox Code Playgroud)

有没有一种快速的方法来创建具有相同结构但没有任何数据的表？

hive create-table

Eug*_*Cuz

2018 03-13

3
推荐指数

1
解决办法

3314
查看次数

别名联盟的结果

我有2个选择语句.我和他们结合了.

select * from t1
union all
select * from t2

Run Code Online (Sandbox Code Playgroud)

我可以为结果添加别名吗？会有类似的东西

union all as t3

Run Code Online (Sandbox Code Playgroud)

工作？

sql oracle union alias

Eug*_*Cuz

2016 12-02

1
推荐指数

1
解决办法

203
查看次数

标签统计

alias ×1

apache-spark ×1

columnsorting ×1

create-table ×1

hive ×1

oracle ×1

orc ×1

snappy ×1

sql ×1

union ×1

sortWithinPartitions 是如何排序的？

如何在Hive中创建表的空副本

别名联盟的结果

标签 统计

小编Eug_Cuz的帖子

标签统计