标签: hadoop2

Hadoop“连接异常失败:java.net.ConnectException:连接被拒绝”

我正在尝试在本地模式下运行 Hadoop 命令。我在 Mac OS X 10.10.5 上运行,在将文件放入 HDFS 时出现错误。这是来自我的 Hadoop 命令的错误消息:

 $ sudo hadoop fs -put HG00103.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam /usr/ds/genomics
    Password:
    15/09/25 10:10:50 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    put: Call From BlueMeanie/10.0.1.5 to localhost:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
Run Code Online (Sandbox Code Playgroud)

以下是我的系统的详细信息:

$ java -version
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)

$ hadoop version …
Run Code Online (Sandbox Code Playgroud)

hadoop2

2
推荐指数
1
解决办法
5239
查看次数

Hadoop 2.x 中的辅助 NameNode 使用和高可用性

你能帮我解决以下情况吗?

1)在使用Hadoop V2时,我们是否在生产环境中使用Secondary NameNode?

2) 对于 Hadoop V2,假设我们在主动/被动连接中使用多个 NameNode 以实现高可用性,并且当编辑日志文件变得越来越大时,

编辑日志如何应用于 fsimage?如果是这样,那么在 Namenode 启动期间将巨大的 Edits 日志应用到 Namenode 会很耗时吗?(我们在 hadoop v1 中有 Secondary NameNode 来解决这个问题)

hadoop hdfs hadoop2

2
推荐指数
1
解决办法
2061
查看次数

根据reducer的值升序排序

我是 hadoop mapreduce 编程范例的新手,有人可以告诉我如何轻松地根据值进行排序吗?我尝试实现另一个比较器类,但是有没有更简单的方法,例如通过作业配置来根据减速器的值进行排序。基本上我正在阅读日志文件,并且我想按升序对 hitcount 进行排序。

public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

private final static IntWritable ONE = new IntWritable(1);
private Text word = new Text();

public void map(Object key, Text value, Context context
                ) throws IOException, InterruptedException {
    String[] split = value.toString().split(" ");
    for(int i=0; i<split.length; i++){
        if (i==6)
            word.set(split[i]);
            context.write(word, ONE);
    }
}
}

public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {       
private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values,  Context …
Run Code Online (Sandbox Code Playgroud)

java hadoop mapreduce hadoop2

2
推荐指数
1
解决办法
1467
查看次数

如何通过直接从网页下载文件而不使用本地直接将文件放置在HDFS中?

我需要帮助。我正在使用 python 代码从网页下载文件并将其放置在本地文件系统中,然后使用 put 命令将其传输到 HDFS,然后对其执行操作。

但是在某些情况下,文件大小会非常大,下载到本地文件系统不是一个正确的过程。因此,我希望将文件直接下载到 HDFS 中,而根本不使用本地文件系统。

任何人都可以向我建议一些方法,哪种方法是最好的方法?如果我的问题有任何错误,请纠正我。

hadoop hdfs hadoop-streaming hadoop2

2
推荐指数
1
解决办法
712
查看次数

删除直线输出中的标题

我正在尝试 beeline cli 查询配置单元表并将输出结果存储为变量。使用 beeline 命令:

beeline -u connection_string -n user_name -w password_file \
-e "select count(*) from db.table_name"
Run Code Online (Sandbox Code Playgroud)

使用这个命令,我得到当前的输出结果为:

+---------------+--+ 
| record_count  | 
+---------------+--+ 
| 80785         | 
+---------------+--+
Run Code Online (Sandbox Code Playgroud)

虽然我需要结果为: Record count:80785

我正在使用的另一个命令是:

beeline -u connection_string -n user_name -w password_file \
-e "select * from db.table_name;” > result.csv
Run Code Online (Sandbox Code Playgroud)

这再次以表格格式数据显示结果,以|.

默认情况下,beeline 基本上是返回 header( table_name.column_name),然后是表格格式的数据。然而,我想消除这一点并获得像 hive CLI 这样的结果。

hadoop hive hadoop2 beeline

2
推荐指数
1
解决办法
4823
查看次数

Amazon EMR 在为 Apache-Flink 提交作业时出现错误,Hadoop 可恢复

Added Depedency Pom Details :

<dependencies>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-clients_2.11</artifactId>
            <version>1.7.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_2.11</artifactId>
            <version>1.7.1</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-core</artifactId>
            <version>1.7.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>1.7.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-runtime_2.11</artifactId>
            <version>1.7.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table_2.11</artifactId>
            <version>1.7.1</version>
            <scope>provided</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka-0.10_2.11</artifactId>
            <version>1.7.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-filesystem_2.11</artifactId>
            <version>1.7.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-hadoop-compatibility_2.11</artifactId>
            <version>1.7.1</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-s3-fs-hadoop</artifactId>
            <version>1.7.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-shaded-hadoop</artifactId>
            <version>1.7.1</version>
            <type>pom</type>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-aws</artifactId>
            <version>2.8.5</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.8.5</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.8.5</version>
        </dependency> …
Run Code Online (Sandbox Code Playgroud)

amazon-s3 hadoop2 apache-flink

2
推荐指数
1
解决办法
1205
查看次数

Hadoop 2.2.0中的MapReduce无法正常工作

安装和配置我Hadoop 2.2.0的伪分布式模式后,一切都在运行,如下所示jps:

$ jps
2287 JobHistoryServer
1926 ResourceManager
2162 NodeManager
1834 DataNode
1756 NameNode
3013 Jps
Run Code Online (Sandbox Code Playgroud)

然后我运行了wordcount示例

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /user/hdfs/file /output
Run Code Online (Sandbox Code Playgroud)

执行frezees(?)如下:

$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /user/hdfs/file /output                                          
OpenJDK 64-Bit Server VM warning: You have loaded library /home/hduser/hadoop-src/hadoop-2.2.0/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.
It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.
14/04/22 …
Run Code Online (Sandbox Code Playgroud)

hadoop mapreduce hadoop2

1
推荐指数
1
解决办法
5653
查看次数

几个蜂巢面试问题

我最近在接受一家公司的采访时遇到了一些问题。由于我是Hadoop的新手,所以有人可以告诉我正确的答案吗?

问题:

  1. Hive中“排序依据”和“分组依据”之间的区别。他们如何工作?
  2. 如果我们在Hive中的任何SQL查询中使用“限制1”,那么Reducer是否可以工作。
  3. 如何优化蜂巢性能?
  4. “内部表”和“外部表”之间的区别
  5. Hive和SQL之间的主要区别是什么

请提供一些有用的资源,以便我可以更好地学习。谢谢

hadoop hive hadoop-streaming hiveql hadoop2

1
推荐指数
1
解决办法
9192
查看次数

文件或目录如何存储在 hadoop hdfs 中

我使用以下命令在 hdfs 中创建了一个文件

hdfs dfs -touchz /hadoop/dir1/file1.txt
Run Code Online (Sandbox Code Playgroud)

我可以使用以下命令查看创建的文件

hdfs dfs -ls /hadoop/dir1/
Run Code Online (Sandbox Code Playgroud)

但是,我无法使用 linux 命令(使用 find 或 locate)找到位置本身。我在互联网上搜索并找到了以下链接。 如何访问 Hadoop HDFS 中的文件?. 它说,hdfs 是虚拟存储。在这种情况下,它如何划分哪个或需要使用多少,元数据存储在哪里

是否将我在 hdfs-site.xml 中提到的虚拟存储的 datanode 位置用于存储所有数据?

我查看了 datanode 位置,并且有可用的文件。但是我找不到与我创建的文件或文件夹相关的任何内容。

(我使用的是 hadoop 2.6.0)

hadoop hdfs hadoop2

1
推荐指数
1
解决办法
2286
查看次数

对象 SparkSession 不是包 org.apache.spark.sql 的成员

我正在尝试将最新的 Spark api 与 SparkSession 一起使用。

当我导入包时,我的 Eclipse 在附件中显示错误。

我正在使用 2.10.6 scala 编译器。

请帮我解决这个问题。

绒球 代码

scala apache-spark hadoop2 apache-spark-sql spark-dataframe

1
推荐指数
1
解决办法
2万
查看次数