小编Sha*_*ile的帖子

我正在处理一个大蜂巢表（超过 5000 亿条记录）。处理速度太慢，我想让它更快。我认为通过添加分区，该过程可能会更加有效。

有人能告诉我该怎么做吗？请注意，我的表已经存在。

我的桌子：

create table T(
nom string,
prenom string,
...
date string)

按日期字段分区。

谢谢

5
推荐指数

1
解决办法

3万
查看次数

我的环境使用Spark,Pig和Hive.

我在使用Scala(或与我的环境兼容的任何其他语言)编写代码时遇到一些麻烦,该代码可以将文件从本地文件系统复制到HDFS.

有没有人对如何进行有任何建议？

1
推荐指数

2
解决办法

7067
查看次数

sql ×1

小编Sha_ile的帖子