如何使用 Hive 使用单个 hdfs 路径创建 n 个外部表

Question

如何使用 Hive 使用单个 hdfs 路径创建 n 个外部表

raj*_*oka 3 hive create-table external-tables hdfs hiveddl

是否可以使用 Hive 创建 n 个指向单个 hdfs 路径的外部表。如果是，有什么优点和局限性。

Answer 1

可以在 HDFS 中的同一位置上创建多个表（同时托管和外部）。

在相同数据之上创建具有完全相同架构的表根本没有用，但是您可以创建具有不同列数的不同表，例如使用 RegexSerDe 创建具有不同解析列的不同表，因此您可以在这些表中使用不同的架构表。您可以对 Hive 中的这些表拥有不同的权限。也可以在其他一些表格文件夹的子文件夹顶部创建表格，在这种情况下，它将包含一个子集数据。最好在单个表中使用分区。

缺点是它很混乱，因为您可以使用多个表重写相同的数据，并且您可能会意外删除它，认为该数据属于唯一的表，您可以删除数据，因为您不再需要该表.

这是几个测试：

使用 INT 列创建表：

create table T(id int);
OK
Time taken: 1.033 seconds

Run Code Online (Sandbox Code Playgroud)

检查位置和其他属性：

hive> describe formatted T;
OK
# col_name              data_type               comment

id                      int

# Detailed Table Information
Database:               my
Owner:                  myuser
CreateTime:             Fri Jan 04 04:45:03 PST 2019
LastAccessTime:         UNKNOWN
Protect Mode:           None
Retention:              0
Location:               hdfs://myhdp/user/hive/warehouse/my.db/t
Table Type:             MANAGED_TABLE
Table Parameters:
        transient_lastDdlTime   1546605903

# Storage Information
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat:            org.apache.hadoop.mapred.TextInputFormat
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed:             No
Num Buckets:            -1
Bucket Columns:         []
Sort Columns:           []
Storage Desc Params:
        serialization.format    1
Time taken: 0.134 seconds, Fetched: 26 row(s)
                                                                                                  sts)

Run Code Online (Sandbox Code Playgroud)

在相同位置的顶部创建第二个表，但带有 STRING 列：

hive> create table T2(id string) location 'hdfs://myhdp/user/hive/warehouse/my.db/t';
OK
Time taken: 0.029 seconds

Run Code Online (Sandbox Code Playgroud)

插入数据：

hive> insert into table T values(1);
OK
Time taken: 33.266 seconds

Run Code Online (Sandbox Code Playgroud)

检查数据：

hive> select * from T;
OK
1
Time taken: 3.314 seconds, Fetched: 1 row(s)

Run Code Online (Sandbox Code Playgroud)

插入第二个表：

hive> insert into table T2 values( 'A');
OK
Time taken: 23.959 seconds

Run Code Online (Sandbox Code Playgroud)

检查数据：

hive> select * from T2;
OK
1
A
Time taken: 0.073 seconds, Fetched: 2 row(s)

Run Code Online (Sandbox Code Playgroud)

从第一个表中选择：

hive> select * from T;
OK
1
NULL
Time taken: 0.079 seconds, Fetched: 2 row(s)

Run Code Online (Sandbox Code Playgroud)

字符串被选为 NULL，因为该表被定义为具有 INT 列。

现在将 STRING 插入第一个表（INT 列）：

insert into table T values( 'A');
OK
Time taken: 84.336 seconds

Run Code Online (Sandbox Code Playgroud)

惊喜，它没有失败！

插入了什么？

hive> select * from T2;
OK
1
A
NULL
Time taken: 0.067 seconds, Fetched: 3 row(s)

Run Code Online (Sandbox Code Playgroud)

插入了 NULL，因为在之前的插入字符串被转换为 int 并且这导致了 NULL

现在让我们尝试删除一张表并从另一张表中进行选择：

hive> drop table T;
OK
Time taken: 4.996 seconds
hive> select * from T2;
OK
Time taken: 6.978 seconds

Run Code Online (Sandbox Code Playgroud)

返回 0 行，因为第一个表是 MANAGED 并且删除表也删除了公共位置。

结束，

数据被删除，我们需要没有数据的T2表吗？

drop table T2;
OK

Run Code Online (Sandbox Code Playgroud)

第二个表被删除了，你看，它只是元数据。该表也被管理，drop table应该也删除带有数据的位置，但在 HDFS 中已经没有什么可以删除的了，只删除了元数据。

归档时间：	7 年，2 月前
查看次数：	1906 次
最近记录：	5 年，6 月前