我正在处理一个大蜂巢表(超过 5000 亿条记录)。处理速度太慢,我想让它更快。我认为通过添加分区,该过程可能会更加有效。
有人能告诉我该怎么做吗?请注意,我的表已经存在。
我的桌子:
create table T(
nom string,
prenom string,
...
date string)
Run Code Online (Sandbox Code Playgroud)
按日期字段分区。
谢谢
我的环境使用Spark,Pig和Hive.
我在使用Scala(或与我的环境兼容的任何其他语言)编写代码时遇到一些麻烦,该代码可以将文件从本地文件系统复制到HDFS.
有没有人对如何进行有任何建议?