在INT/BIGINT和VARCHAR上的Hive连接之间是否存在可靠的性能差异？

Rog*_*ull 7 int varchar hive join query-performance

多年来,我一直在阅读/听到关于bigint列上的数据库连接的"性能优势" OVER加入(var)char列.

不幸的是,在寻找关于'simlilar type questions'的真实答案/建议时:

使用的示例位于"传统" RDBMS上下文中,如Mysql或Oracle/SQL Server.就拿这个问题,或者这个例子
答案很古老,运行时的结束差异并不大.再次,请参阅此示例

我没有看到使用Hive版本(最好是版本1.2.1或更高版本)的示例,其中大型(BIG-DATA-ISH)数据集(假设5亿个+行)连接到类似大小的数据集:

一个Bigint专栏
VERSUS(var)Char(32)列.
VERSUS(var)Char(255)列.

我选择32的大小,因为它是MD5哈希的大小,转换为字符和255,因为它是我所见过的最大自然键的"范围".

此外,我希望Hive:

在Tez引擎下运行
使用(压缩)文件格式,如ORC + ZLip/Snappy

有没有人知道这样的例子,通过展示Hive Explain计划,CPU,文件和网络资源+查询运行时证明了证据？

归档时间：	9 年，6 月前
查看次数：	397 次
最近记录：	9 年，6 月前

INT和VARCHAR主键之间是否存在真正的性能差异？ 161

更多相关链接

C#boolean int转换问题 34

如何检查字符串是否包含int？-迅速 17

为什么不能识别选择部分中命名的别名？ 12

跨多个表的mySQL MATCH 10

在Java中比较BigDecimal和int 10

int []和Integer []数组 - 有什么区别？ 9

蜂巢中的ARRAY_CONTAINS个多重值 6

如何在mysql中不使用子查询的情况下查找某些特定记录 5

如何在 pyspark 中使用“不存在的地方”SQL 条件？ 3

SQL Join使用'unless'子句 1

如何在本地和远程删除Git分支？ 16311

如何在JavaScript中检查"undefined"？ 2294

如何访问环境变量值？ 1878

为什么++ [[]] [+ []] + [+ []]返回字符串"10"？ 1613

如何在Bash中将变量设置为命令的输出？ 1513

什么是按位移位(位移)运算符以及它们如何工作？ 1340

显示屏上的转换:属性 1322

处理"java.lang.OutOfMemoryError:PermGen space"错误 1215

迭代集合,在循环中删除对象时避免使用ConcurrentModificationException 1158

用于Python的IDE是什么？ 1028