我使用 Spark 并且发现当查询有很多连接操作并且 group by Spark 需要执行大量洗牌操作时。我一直在寻找为什么会发生这种情况的信息,但我没有找到具体的信息。你能帮助理解这一点吗?
我想知道是否可以从存储在 hadoop 文件系统(users.tbl)中的 ORC 格式的文件创建一个配置单元表。我读到 ORC 格式在优化方面比文本更好。所以我想知道是否可以使用stored as orc tblproperties和location属性创建一个 hive 表,以从 hdfs 文件创建一个 orc 格式的表。
如下:
create table if not exists users
(USERID BIGINT,
NAME STRING,
EMAIL STRING,
CITY STRING)
STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY")
LOCATION '/tables/users/users.tbl';
Run Code Online (Sandbox Code Playgroud)
插入文本:
create table if not exists users
(USERID BIGINT,
NAME STRING,
EMAIL STRING,
CITY STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' STORED AS TEXTFILE
LOCATION '/tables/users/users.tbl';
Run Code Online (Sandbox Code Playgroud)