小编DJE*_*bow的帖子

如何从 Hive UDF 返回结构？

我无法找到有关如何使用 Hive UDF 返回结构的文档。

我的主要问题是：

在 Java 中我从哪些类型的对象开始？

我如何转换它们，以便将它们解释为 Hive 中的结构？

java hadoop hive user-defined-functions

DJE*_*bow

lucky-day

4
推荐指数

1
解决办法

4931
查看次数

Hive外部表-数据位置元数据存储在哪里？

我在Amazon EMR上使用Hive外部表。这些表通常是分区的，每个分区都指向S3中的不同存储桶。我正在将MySQL用于Hive元数据存储。

我希望能够看到每个分区指向的S3上的位置/存储桶。我已经研究了MySQL中的元数据表。我在那里可以看到分区信息，但是没有任何信息表明该数据的实际位置。

该数据在MySQL中可用吗，还是可以通过Hive命令获得？

mysql hadoop hive amazon-s3 emr

DJE*_*bow

lucky-day

3
推荐指数

2
解决办法

1万
查看次数

EMR 上 Hadoop 作业的 S3 文件的最佳文件大小？

我正在尝试确定存储在 S3 中的文件的理想大小，该文件将用于 EMR 上的 Hadoop 作业。

目前我有大约 5-10GB 的大文本文件。我担心将这些大文件复制到 HDFS 以运行 MapReduce 作业的延迟。我可以选择使这些文件更小。

我知道在 MapReduce 作业中使用 S3 作为输入目录时，S3 文件会并行复制到 HDFS。但是会使用单线程将单个大文件复制到 HDFS，还是会将该文件作为多个部分并行复制？另外，Gzip 压缩是否会影响将单个文件分成多个部分？

hadoop amazon-s3 amazon-web-services amazon-emr emr

DJE*_*bow

lucky-day

2
推荐指数

1
解决办法

3896
查看次数

Spark - 使用ReduceByKey以最佳方式聚合两个值

使用Spark,我有一对RDD[(String, (Int, Int)].我试图找到每个键显示多个总和的最佳方法(在这种情况下,每个Int单独显示的总和).我想这样做reduceByKey.

这可能吗？

scala apache-spark

DJE*_*bow

2015 07-22

0
推荐指数

1
解决办法

2094
查看次数

标签统计

hadoop ×3

amazon-s3 ×2

emr ×2

hive ×2

amazon-emr ×1

amazon-web-services ×1

apache-spark ×1

java ×1

mysql ×1

scala ×1

user-defined-functions ×1

如何从 Hive UDF 返回结构？

Hive外部表-数据位置元数据存储在哪里？

EMR 上 Hadoop 作业的 S3 文件的最佳文件大小？

Spark - 使用ReduceByKey以最佳方式聚合两个值

标签 统计

小编DJE_bow的帖子

标签统计