小编DJE*_*bow的帖子

如何从 Hive UDF 返回结构?

我无法找到有关如何使用 Hive UDF 返回结构的文档。

我的主要问题是:

在 Java 中我从哪些类型的对象开始?

我如何转换它们,以便将它们解释为 Hive 中的结构?

java hadoop hive user-defined-functions

4
推荐指数
1
解决办法
4931
查看次数

Hive外部表-数据位置元数据存储在哪里?

我在Amazon EMR上使用Hive外部表。这些表通常是分区的,每个分区都指向S3中的不同存储桶。我正在将MySQL用于Hive元数据存储。

我希望能够看到每个分区指向的S3上的位置/存储桶。我已经研究了MySQL中的元数据表。我在那里可以看到分区信息,但是没有任何信息表明该数据的实际位置。

该数据在MySQL中可用吗,还是可以通过Hive命令获得?

mysql hadoop hive amazon-s3 emr

3
推荐指数
2
解决办法
1万
查看次数

EMR 上 Hadoop 作业的 S3 文件的最佳文件大小?

我正在尝试确定存储在 S3 中的文件的理想大小,该文件将用于 EMR 上的 Hadoop 作业。

目前我有大约 5-10GB 的大文本文件。我担心将这些大文件复制到 HDFS 以运行 MapReduce 作业的延迟。我可以选择使这些文件更小。

我知道在 MapReduce 作业中使用 S3 作为输入目录时,S3 文件会并行复制到 HDFS。但是会使用单线程将单个大文件复制到 HDFS,还是会将该文件作为多个部分并行复制?另外,Gzip 压缩是否会影响将单个文件分成多个部分?

hadoop amazon-s3 amazon-web-services amazon-emr emr

2
推荐指数
1
解决办法
3896
查看次数

Spark - 使用ReduceByKey以最佳方式聚合两个值

使用Spark,我有一对RDD[(String, (Int, Int)].我试图找到每个键显示多个总和的最佳方法(在这种情况下,每个Int单独显示的总和).我想这样做reduceByKey.

这可能吗?

scala apache-spark

0
推荐指数
1
解决办法
2094
查看次数