小编jUs*_*Usr的帖子

为什么join和group by会影响spark中的数据shuffle量

我使用 Spark 并且发现当查询有很多连接操作并且 group by Spark 需要执行大量洗牌操作时。我一直在寻找为什么会发生这种情况的信息,但我没有找到具体的信息。你能帮助理解这一点吗?

hadoop apache-spark

6
推荐指数
2
解决办法
5132
查看次数

从 hdfs 中以 orc 格式存储的文件创建 hive 表

我想知道是否可以从存储在 hadoop 文件系统(users.tbl)中的 ORC 格式的文件创建一个配置单元表。我读到 ORC 格式在优化方面比文本更好。所以我想知道是否可以使用stored as orc tblpropertieslocation属性创建一个 hive 表,以从 hdfs 文件创建一个 orc 格式的表。

如下:

create table if not exists users
(USERID BIGINT,
 NAME STRING,
 EMAIL STRING,
 CITY STRING)
STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY")
LOCATION '/tables/users/users.tbl';
Run Code Online (Sandbox Code Playgroud)

插入文本:

create table if not exists users
    (USERID BIGINT,
     NAME STRING,
     EMAIL STRING,
     CITY STRING)
     ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' STORED AS TEXTFILE 
     LOCATION '/tables/users/users.tbl';
Run Code Online (Sandbox Code Playgroud)

hadoop hive

5
推荐指数
1
解决办法
1万
查看次数

标签 统计

hadoop ×2

apache-spark ×1

hive ×1