标签: hadoop2

运行MapReduce作业时获取应用程序ID

运行时是否有任何方法来获取应用程序ID（例如，使用命令的wordcount示例）yarn？

我希望使用该yarn命令从另一个进程启动作业，并通过YARN REST API监视作业的状态。

（使用Hadoop 2.4.0）

mapreduce hadoop-yarn hadoop2

Dyi*_*yin

lucky-day

4
推荐指数

2
解决办法

1万
查看次数

如何将硬盘添加到hadoop

我在Ubuntu 14.04上安装了Hadoop 2.4,现在我正在尝试将内部sata HD添加到现有集群中.

我已将新的hd安装在/ mnt/hadoop中,并将其所有权分配给hadoop用户

然后我尝试将其添加到配置文件中,如下所示:

<configuration>
   <property>
       <name>dfs.replication</name>
       <value>2</value>
   </property>

   <property>
       <name>dfs.name.dir</name>
       <value>file:///home/hadoop/hadoopdata/hdfs/namenode, file:///mnt/hadoop/hadoopdata/hdfs/namenode</value>
   </property>

   <property>
       <name>dfs.data.dir</name>
       <value>file:///home/hadoop/hadoopdata/hdfs/datanode, file:///mnt/hadoop/hadoopdata/hdfs/datanode</value>
   </property>
</configuration>

Run Code Online (Sandbox Code Playgroud)

之后,我开始了hdfs:

Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop/logs/hadoop-hadoop-namenode-hadoop-Datastore.out
localhost: starting datanode, logging to /home/hadoop/hadoop/logs/hadoop-hadoop-datanode-hadoop-Datastore.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /home/hadoop/hadoop/logs/hadoop-hadoop-secondarynamenode-hadoop-Datastore.out

Run Code Online (Sandbox Code Playgroud)

似乎它没有启动第二个高清

这是我的core-site.xml

<configuration>
   <property>
       <name>fs.default.name</name>
       <value>hdfs://localhost:9000</value>
   </property>
</configuration>

Run Code Online (Sandbox Code Playgroud)

此外,我试图刷新namenode,我得到一个连接问题:

Refreshing namenode [localhost:9000]
refreshNodes: Call From hadoop-Datastore/127.0.1.1 to localhost:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused …

Run Code Online (Sandbox Code Playgroud)

hadoop hadoop-partitioning hadoop2

QGA*_*QGA

2014 06-16

4
推荐指数

1
解决办法

4937
查看次数

Hadoop错误 - 所有数据节点都在中止

我正在使用Hadoop 2.3.0版本.有时,当我执行Map reduce作业时,将显示以下错误.

14/08/10 12:14:59 INFO mapreduce.Job: Task Id : attempt_1407694955806_0002_m_000780_0, Status : FAILED
Error: java.io.IOException: All datanodes 192.168.30.2:50010 are bad. Aborting...
    at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.setupPipelineForAppendOrRecovery(DFSOutputStream.java:1023)
    at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DFSOutputStream.java:838)
    at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:483)

Run Code Online (Sandbox Code Playgroud)

当我尝试检查这些失败任务的日志文件时,此任务的日志文件夹将为空.

我无法理解这个错误背后的原因.有人可以让我知道如何解决这个问题.谢谢你的帮助.

hadoop mapreduce hdfs hadoop-yarn hadoop2

Sra*_*mar

2014 08-11

4
推荐指数

1
解决办法

1万
查看次数

MapReduce 2对YARN应用程序

关于如何开发新的MapReduce2应用程序以与YARN一起工作以及旧的应用程序会发生什么,我有点困惑.

我目前有MapReduce1应用程序,主要包括:

配置要提交到集群的作业的驱动程序(以前的JobTracker和现在的ResourceManager).
Mappers + Reducers

从一方面我看到MapReduce1中编码的应用程序在MapReduce2/YARN中是兼容的,有一些注意事项,只需重新编译新的CDH5库(我使用Cloudera发行版).

但是从另一方面来说,我看到有关以与MapReduce不同的方式编写YARN应用程序的信息(使用YarnClient,ApplicationMaster等):

http://hadoop.apache.org/docs/r2.7.0/hadoop-yarn/hadoop-yarn-site/WritingYarnApplications.html

但对我来说,YARN只是架构以及集群如何管理您的MR应用程序.

我的问题是:

YARN申请是否包括MapReduce申请？
我应该像YARN应用程序一样编写代码,忘记驱动程序和创建Yarn客户端ApplicationMasters等等吗？
我还可以使用驱动程序+作业设置开发客户端类吗？是MapReduce1(使用MR2库重新编译)作业YARN 以与YARN应用程序相同的方式管理？
MapReduce1应用程序和YARN应用程序之间在YARN内部管理它们的方式有何不同？

提前致谢

mapreduce hadoop-yarn hadoop2

Fra*_*ran

2016 05-20

4
推荐指数

1
解决办法

3361
查看次数

Hbase在哪里存储数据？

我是HBase的新手.目前我正在使用hortonworks沙箱hdp2.在研究Hbase时,我遇到了一些问题.

hbase在哪里存储数据？
如果它存储在HDFS上,那么它如何执行更新操作,因为hdfs 写入一次并多次读取

hadoop hbase nosql hortonworks-data-platform hadoop2

Vij*_*nde

2017 09-23

4
推荐指数

1
解决办法

4874
查看次数

什么是Hive中的NULLIF替换？

我想知道什么是NULLIFHive 的替代品？我正在使用COALESCE,但它不符合我的要求.我的查询语句如下:

COALESCE(A,B,C) AS D

Run Code Online (Sandbox Code Playgroud)

COALESCE将返回第一个NOT NULL值.但是我的A/B/C包含空值,因此COALESCE没有将该值赋给D,因为它将空白视为NOT NULL.但我希望将正确的值分配给D.

在SQL中,我可以使用COALESCE(NULLIF(A,'')......)它,因此它也会检查空白.我试过CASE但它不起作用.

sql hive hiveql hadoop2

Sha*_*han

2015 10-10

4
推荐指数

1
解决办法

1万
查看次数

MAC ----- Hadoop 2.7无法执行目标org.apache.maven.plugins:maven-antrun-plugin:1.7

我试图从源代码安装Hadoop 2.7.2,我得到以下错误,我已经google了一下但找不到任何解决方案.

请帮忙.

问候

Mac:10.11.2(64位); Java:java版"1.8.0_60"; protoc -version:libprotoc 2.5.0; maven3.3.9

命令:mvn包-Pdist,native -DskipTests -Dtar -X

错误信息:

[INFO] Apache Hadoop MapReduce Examples ................... SUCCESS [  2.565 s]
[INFO] hadoop-mapreduce ................................... SUCCESS [  2.230 s]
[INFO] Apache Hadoop MapReduce Streaming .................. SUCCESS [  2.199 s]
[INFO] Apache Hadoop Distributed Copy ..................... SUCCESS [  4.951 s]
[INFO] Apache Hadoop Archives ............................. SUCCESS [  1.168 s]
[INFO] Apache Hadoop Rumen ................................ SUCCESS [  3.008 s]
[INFO] Apache Hadoop Gridmix .............................. SUCCESS [  1.990 s]
[INFO] …

Run Code Online (Sandbox Code Playgroud)

hadoop2

wan*_*wan

2016 04-24

4
推荐指数

1
解决办法

2583
查看次数

错误:E0708:E0708:转换无效

使用本教程我为hive脚本创建了工作流,但是当我在命令下运行时给出了错误:

 oozie job -oozie http://xxx.xx.xx.xx:11000/oozie -config  /home/ec2-user/ankit/oozie_job1/job.properties -submit

Run Code Online (Sandbox Code Playgroud)

我得到的错误是这样的:

错误:E0708:E0708:转换无效,节点[Oozie_test]转换[Tester]

我的工作流程代码如下:

<workflow-app name="Tester" xmlns="uri:oozie:workflow:0.1">
<start to="Oozie_test"/>
<action name="Oozie_test">
<hive xmlns="uri:oozie:hive-action:0.2">
 <job-tracker>xxx.xx.xx.xx:8021</job-tracker>
 <name-node>xxx.xx.11.xx:8020</name-node>
 <configuration>
    <property>
         <name>oozie.hive.defaults</name>
         <value>/home/ec2-user/ankit/oozie_job1/hive-default.xml</value>
    </property>
 </configuration>
 <script>hive_job1.hql</script>
</hive>
<ok to="Tester"/>
<error to="fail"/>
</action>
<end name="end"/>
</workflow-app>

Run Code Online (Sandbox Code Playgroud)

由于这是我的第一个oozie工作流程,我无法得到我错在哪里或我错过了什么.

我试图在互联网上搜索解决方案,但找不到任何运气.

请让我知道如何解决此错误以及我方需要的其他信息.

hadoop oozie hadoop2

Ank*_*ari

lucky-day

4
推荐指数

1
解决办法

4942
查看次数

hadoop中每个映射器有一个或多个文件？

映射器是同时处理多个文件还是映射器一次只能处理一个文件？我想知道默认行为

hadoop mapreduce hadoop-yarn hadoop2

use*_*729

2017 02-24

4
推荐指数

1
解决办法

2577
查看次数

生产者程序中的kafka网络处理器错误（ArrayIndexOutOfBoundsException：18）

我下面有卡夫卡制作人Api程序，而我对卡夫卡本身并不陌生。下面的代码从API之一获取数据并将消息发送到kafka主题。

package kafka_Demo;

import java.util.Properties;
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import org.apache.kafka.clients.producer.*;
import java.net.URL;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;

public class HttpBasicAuth {

    public static void main(String[] args) {
        try {

            Properties props = new Properties();
             props.put("bootstrap.servers", "localhost:9092");
             props.put("zookeeper.connect", "localhost:2181");
             props.put("batch.size", 16384);
             props.put("linger.ms", 1);
             props.put("buffer.memory", 33554432);
             props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
             props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

            Producer<String, String> producer = new KafkaProducer<>(props);
            Json_read count = new Json_read();
            URL url = new URL("https://alm.sysbiz.org/rest/api/2/search?jql=project=ALG&maxResults=0");
            long total_ticket = count.ticketCount(url);
            Alm_authentication alm = new Alm_authentication();
            for (long i = 0; …

Run Code Online (Sandbox Code Playgroud)

java api apache-kafka hadoop2 kafka-producer-api

Tha*_*ddy

lucky-day

4
推荐指数

1
解决办法

2532
查看次数