标签: hadoop

当我尝试进行查询时,Hive不响应

我在EC2实例上有一个设置,它使用Whirr来启动新的hadoop实例.我一直试图让Hive使用这个设置.应将Hive配置为使用mysql作为本地Metastore.我遇到的问题是每次我尝试通过hive接口运行像(CREATE TABLE测试器(foo INT,bark STRING);)这样的查询时,它只是挂在那里,似乎没有做任何事情.

任何帮助,将不胜感激.

hadoop hive amazon-ec2

0
推荐指数
1
解决办法
2271
查看次数

使用Mapreduce进行递归计算

我正在研究map reduce program并且正在考虑设计表单的计算,其中a1, b1的值是与键相关联的值

  a1/b1, a1+a2/b1+b2, a1+a2+a3/b1+b2+b3 ...
Run Code Online (Sandbox Code Playgroud)

因此,在减速器的每个阶段,我都需要先前的值.如何将此设计为地图减少,因为在每个阶段只能读取与特定键相关联的值.

如果您觉得问题不明确,您可以引导我解决这个一般性问题吗?

更一般的问题:如何在map reduce中使用递归开发Fibonacci系列?

编辑

你能帮我修改我的设计吗?

 key1, V1,V2,V3
 Key2, V4,V5,V6
Run Code Online (Sandbox Code Playgroud)

映射器输出

  Key1_X V1
  Key1_Y V2
  Key2_X V4
  Key2_Y V5
Run Code Online (Sandbox Code Playgroud)

减速机输出

  Key1_X {V1,.....}
  Key1_Y {V2,.....}
Run Code Online (Sandbox Code Playgroud)

同样,现在在下一个映射器阶段.我可以创建这样的列表:

   key1 {V1,....} {V2,....}
   Key2 {V4,....} {V5,....}
Run Code Online (Sandbox Code Playgroud)

我这样做的理由是执行:

   Key1 {V1/V2, V1+V6/V2+V7, V1+V6+..../V2+V7+.. , .........}
Run Code Online (Sandbox Code Playgroud)

是否有可能做到这一点?因为数据集非常大,所以我认为使用map reduce会更好.

更改设计有助于提高效率吗?

java hadoop mapreduce

0
推荐指数
1
解决办法
2550
查看次数

为什么所有减少任务都在一台机器中结束?

我在Hadoop平台(cloudera发行版)中编写了一个相对简单的map-reduce程序.除常规map-reduce任务外,每个Map&Reduce都会将一些诊断信息写入标准输出.

但是,当我查看这些日志文件时,我发现Map任务在节点之间相对均匀分布(我有8个节点).但是reduce任务标准输出日志只能在一台机器上找到.

我想,这意味着所有的reduce任务最终都会在一台机器上执行,而这是有问题和令人困惑的.

有谁知道这里发生了什么?是配置问题?如何使减少作业均匀分布?

hadoop load-balancing mapreduce

0
推荐指数
1
解决办法
842
查看次数

我不知道符号是什么,"#"在nutch的HttpBase.java的下面的src中是什么意思

当我来到nutch的下面的src时HttpBase.java,我不知道符号是什么,"#"在作者的描述中是什么意思:

// get # of threads already accessing this addr
Integer counter = (Integer)THREADS_PER_HOST_COUNT.get(host);
Run Code Online (Sandbox Code Playgroud)

java hadoop nutch

0
推荐指数
1
解决办法
107
查看次数

如何使用Hadoop,Hive和Sqoop从MS SQL Server检索和分析数据?

我想对数据库(MS SQL Server)中的数据进行分析.那么我怎样才能在Sqoop/Hive的帮助下将这些数据带到HDFS上?是否可以使用Hive/Sqoop?请建议我怎么做.

谢谢.

hadoop hive sqoop

0
推荐指数
1
解决办法
529
查看次数

指定reducer时的中间输出

我写了一个Hadoop Map Reduce工作.当我在本地运行它时,我注意到如果我没有指定任何reduce任务,则会有一些临时文件写入输出目录.如果我指定reducers,则不会写入临时文件.这是正常的行为吗?我希望看到写入临时文件否则意味着映射器试图在内存中执行所有操作然后转移到内存中的reducer.这让我感到难以置信.

关于映射器如何/何时/何处将中间输出写入文件系统的任何见解将不胜感激.

谢谢

hadoop

0
推荐指数
1
解决办法
3242
查看次数

如何用猪输入多参数

我有3个表到批量输入,如何在猪中指定参数?

例如,tmp/001.csv,tmp/002.csv,tmp/003.csv,在pig脚本中,如何编写-param和LOAD语句一次输入这些表?

有人给我举个例子

pig -param nums="'001','002','003'" test.pig
Run Code Online (Sandbox Code Playgroud)

在猪脚本中,

LOAD 'tmp/{nums}.csv' AS ...
Run Code Online (Sandbox Code Playgroud)

但看起来只有001.csv被猪读取.

hadoop apache-pig

0
推荐指数
1
解决办法
774
查看次数

有关Nutch,Hadoop,Solr,MapReduce和Mahout的信息

PS:如果我在任何方面都错了,请纠正我

我正在用Nutch和Solr建立一个搜索引擎.
我知道通过使用Solr,我可以提高搜索的效率 - 让Nutch独自完成整个网络的爬行.
我也知道Hadoop用于通过形成集群和MapReduce来处理数PB的数据.

现在,我想知道的是
1)因为,我将只在一台机器上运行这些开源软件,也就是说,我的笔记本电脑在localhost上运行......在我的情况下,Hadoop如何形成集群是多么有益?如何在一台机器上形成集群?

2)在我的案例中,MapReduce的重要性是什么?

3)MAHOUT,CASSANDRA和HBASE如何影响我的发动机???

非常感谢这方面的任何帮助.如果我问一个菜鸟问题,请告诉我!
谢谢你
的问候

solr hadoop mapreduce nutch mahout

0
推荐指数
1
解决办法
1061
查看次数

Hadoop上的外部/ jar文件存储在哪里?

让我说我写一个WordCount示例,然后在eclipse项目中包含一个外部jar文件,如MyJar.jar.现在,如果我将整个WordCount项目导出为word.jar文件,然后键入

$> hadoop jar word.jar WordCount input output
Run Code Online (Sandbox Code Playgroud)

我知道作业执行,word.jar将有一个包含MyJar.jar文件的lib目录.现在,HDFS将在作业运行时存储此jar文件MyJar文件,从而调用此jar文件的方法?

hadoop mapreduce hdfs

0
推荐指数
1
解决办法
2112
查看次数

如何从Hadoop中的HDFS文件中读取序列化对象

我已将类型为LibSVM的对象序列化为名为j48.model的文件.此文件已传输到HDFS文件系统.

现在,在hadoop mapreduce代码中,如何反序列化此对象并将其读回到类LibSVM的实例中?我已将与LIBSVM相关的.jar文件作为外部jar文件包含在ma reduce项目中.

什么JAVA方法帮助我将文件j48.model的内容读入LibSVM对象?

hadoop mapreduce hdfs

0
推荐指数
1
解决办法
1643
查看次数

标签 统计

hadoop ×10

mapreduce ×5

hdfs ×2

hive ×2

java ×2

nutch ×2

amazon-ec2 ×1

apache-pig ×1

load-balancing ×1

mahout ×1

solr ×1

sqoop ×1