小编Mav*_*ick的帖子

Pig vs Hive vs Native Map Reduce

我对Pig,Hive抽象是什么有基本的了解.但我对需要Hive,Pig或原生地图缩减的场景没有明确的想法.

我经历了一些文章,其中基本上指出Hive用于结构化处理而Pig用于非结构化处理.我们什么时候需要原生地图减少?你能指出一些使用Pig或Hive无法解决但却在原生地图中减少的场景吗?

hadoop hive mapreduce apache-pig

21
推荐指数
4
解决办法
2万
查看次数

如何解决hadoop中的"非法分区"错误?

我写了一个自定义分区器.当我有大于1的reduce任务数时,作业失败.这是我得到的例外情况:

 java.io.IOException: Illegal partition for weburl_compositeKey@804746b1 (-1)
 at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:930)
 at org.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:499)
Run Code Online (Sandbox Code Playgroud)

我写的代码是

public int getPartition(weburl_compositeKey key, Text value, int numPartitions)
{
    return (key.hashCode()) % numPartitions;
}
Run Code Online (Sandbox Code Playgroud)

这个值的key.hashCode()equals -719988079和mod正在返回-1.

感谢您对此的帮助.谢谢.

java hadoop mapreduce

8
推荐指数
1
解决办法
5808
查看次数

需要帮助了解 Hbase 读取路径

我一直在对 HBase 进行一些研究,目前在理解 HBase 读取路径如何工作方面遇到了挑战。我对其工作原理有基本的了解。但是,我不清楚它如何读取多个 HFiles 检查布隆过滤器。元块的用途是什么,hbase 如何使用它来读取数据。hfiles 中索引的用途是什么?它是如何使用的?

因此需要您的帮助来理解这个概念。

非常感谢您的宝贵时间。谢谢

hadoop hbase mapreduce

3
推荐指数
1
解决办法
3072
查看次数

Sqoop创建包含多个记录的insert语句

我们正在尝试将数据从sqoop加载到netezza.我们正面临以下问题.

java.io.IOException: org.netezza.error.NzSQLException: ERROR:
Run Code Online (Sandbox Code Playgroud)

示例输入数据集如下所示:

1,2,3

1,3,4

sqoop命令如下所示:

sqoop export --table <tablename> --export-dir <path> 
--input-fields-terminated-by '\t' --input-lines-terminated-by '\n' --connect
'jdbc:netezza://<host>/<db>' --driver org.netezza.Driver 
--username <username> --password <passwrd>
Run Code Online (Sandbox Code Playgroud)

Sqoop以下列方式创建一个insert语句:

插入(c1,c2,c3)值(1,2,3),(1,3,4).

我们能够加载一条记录,但是当我们尝试将数据加载到多条记录时,错误如上所述.

非常感谢您的帮助.

hadoop mapreduce sqoop

2
推荐指数
1
解决办法
7725
查看次数

标签 统计

hadoop ×4

mapreduce ×4

apache-pig ×1

hbase ×1

hive ×1

java ×1

sqoop ×1