小编jUs*_*Usr的帖子

为什么join和group by会影响spark中的数据shuffle量

我使用 Spark 并且发现当查询有很多连接操作并且 group by Spark 需要执行大量洗牌操作时。我一直在寻找为什么会发生这种情况的信息，但我没有找到具体的信息。你能帮助理解这一点吗？

hadoop apache-spark

jUs*_*Usr

lucky-day

6
推荐指数

2
解决办法

5132
查看次数

从 hdfs 中以 orc 格式存储的文件创建 hive 表

我想知道是否可以从存储在 hadoop 文件系统（users.tbl）中的 ORC 格式的文件创建一个配置单元表。我读到 ORC 格式在优化方面比文本更好。所以我想知道是否可以使用stored as orc tblproperties和location属性创建一个 hive 表，以从 hdfs 文件创建一个 orc 格式的表。

如下：

create table if not exists users
(USERID BIGINT,
 NAME STRING,
 EMAIL STRING,
 CITY STRING)
STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY")
LOCATION '/tables/users/users.tbl';

Run Code Online (Sandbox Code Playgroud)

插入文本：

create table if not exists users
    (USERID BIGINT,
     NAME STRING,
     EMAIL STRING,
     CITY STRING)
     ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' STORED AS TEXTFILE 
     LOCATION '/tables/users/users.tbl';

Run Code Online (Sandbox Code Playgroud)

hadoop hive

jUs*_*Usr

lucky-day

5
推荐指数

1
解决办法

1万
查看次数