我在EC2实例上有一个设置,它使用Whirr来启动新的hadoop实例.我一直试图让Hive使用这个设置.应将Hive配置为使用mysql作为本地Metastore.我遇到的问题是每次我尝试通过hive接口运行像(CREATE TABLE测试器(foo INT,bark STRING);)这样的查询时,它只是挂在那里,似乎没有做任何事情.
任何帮助,将不胜感激.
我正在研究map reduce program并且正在考虑设计表单的计算,其中a1, b1的值是与键相关联的值
a1/b1, a1+a2/b1+b2, a1+a2+a3/b1+b2+b3 ...
Run Code Online (Sandbox Code Playgroud)
因此,在减速器的每个阶段,我都需要先前的值.如何将此设计为地图减少,因为在每个阶段只能读取与特定键相关联的值.
如果您觉得问题不明确,您可以引导我解决这个一般性问题吗?
更一般的问题:如何在map reduce中使用递归开发Fibonacci系列?
你能帮我修改我的设计吗?
key1, V1,V2,V3
Key2, V4,V5,V6
Run Code Online (Sandbox Code Playgroud)
映射器输出
Key1_X V1
Key1_Y V2
Key2_X V4
Key2_Y V5
Run Code Online (Sandbox Code Playgroud)
减速机输出
Key1_X {V1,.....}
Key1_Y {V2,.....}
Run Code Online (Sandbox Code Playgroud)
同样,现在在下一个映射器阶段.我可以创建这样的列表:
key1 {V1,....} {V2,....}
Key2 {V4,....} {V5,....}
Run Code Online (Sandbox Code Playgroud)
我这样做的理由是执行:
Key1 {V1/V2, V1+V6/V2+V7, V1+V6+..../V2+V7+.. , .........}
Run Code Online (Sandbox Code Playgroud)
是否有可能做到这一点?因为数据集非常大,所以我认为使用map reduce会更好.
更改设计有助于提高效率吗?
我在Hadoop平台(cloudera发行版)中编写了一个相对简单的map-reduce程序.除常规map-reduce任务外,每个Map&Reduce都会将一些诊断信息写入标准输出.
但是,当我查看这些日志文件时,我发现Map任务在节点之间相对均匀分布(我有8个节点).但是reduce任务标准输出日志只能在一台机器上找到.
我想,这意味着所有的reduce任务最终都会在一台机器上执行,而这是有问题和令人困惑的.
有谁知道这里发生了什么?是配置问题?如何使减少作业均匀分布?
当我来到nutch的下面的src时HttpBase.java,我不知道符号是什么,"#"在作者的描述中是什么意思:
// get # of threads already accessing this addr
Integer counter = (Integer)THREADS_PER_HOST_COUNT.get(host);
Run Code Online (Sandbox Code Playgroud) 我想对数据库(MS SQL Server)中的数据进行分析.那么我怎样才能在Sqoop/Hive的帮助下将这些数据带到HDFS上?是否可以使用Hive/Sqoop?请建议我怎么做.
谢谢.
我写了一个Hadoop Map Reduce工作.当我在本地运行它时,我注意到如果我没有指定任何reduce任务,则会有一些临时文件写入输出目录.如果我指定reducers,则不会写入临时文件.这是正常的行为吗?我希望看到写入临时文件否则意味着映射器试图在内存中执行所有操作然后转移到内存中的reducer.这让我感到难以置信.
关于映射器如何/何时/何处将中间输出写入文件系统的任何见解将不胜感激.
谢谢
我有3个表到批量输入,如何在猪中指定参数?
例如,tmp/001.csv,tmp/002.csv,tmp/003.csv,在pig脚本中,如何编写-param和LOAD语句一次输入这些表?
有人给我举个例子
pig -param nums="'001','002','003'" test.pig
Run Code Online (Sandbox Code Playgroud)
在猪脚本中,
LOAD 'tmp/{nums}.csv' AS ...
Run Code Online (Sandbox Code Playgroud)
但看起来只有001.csv被猪读取.
PS:如果我在任何方面都错了,请纠正我
我正在用Nutch和Solr建立一个搜索引擎.
我知道通过使用Solr,我可以提高搜索的效率 - 让Nutch独自完成整个网络的爬行.
我也知道Hadoop用于通过形成集群和MapReduce来处理数PB的数据.
现在,我想知道的是
1)因为,我将只在一台机器上运行这些开源软件,也就是说,我的笔记本电脑在localhost上运行......在我的情况下,Hadoop如何形成集群是多么有益?如何在一台机器上形成集群?
2)在我的案例中,MapReduce的重要性是什么?
3)MAHOUT,CASSANDRA和HBASE如何影响我的发动机???
非常感谢这方面的任何帮助.如果我问一个菜鸟问题,请告诉我!
谢谢你
的问候
让我说我写一个WordCount示例,然后在eclipse项目中包含一个外部jar文件,如MyJar.jar.现在,如果我将整个WordCount项目导出为word.jar文件,然后键入
$> hadoop jar word.jar WordCount input output
Run Code Online (Sandbox Code Playgroud)
我知道作业执行,word.jar将有一个包含MyJar.jar文件的lib目录.现在,HDFS将在作业运行时存储此jar文件MyJar文件,从而调用此jar文件的方法?
我已将类型为LibSVM的对象序列化为名为j48.model的文件.此文件已传输到HDFS文件系统.
现在,在hadoop mapreduce代码中,如何反序列化此对象并将其读回到类LibSVM的实例中?我已将与LIBSVM相关的.jar文件作为外部jar文件包含在ma reduce项目中.
什么JAVA方法帮助我将文件j48.model的内容读入LibSVM对象?