我正在尝试在本地模式下运行 Hadoop 命令。我在 Mac OS X 10.10.5 上运行,在将文件放入 HDFS 时出现错误。这是来自我的 Hadoop 命令的错误消息:
$ sudo hadoop fs -put HG00103.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam /usr/ds/genomics
Password:
15/09/25 10:10:50 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
put: Call From BlueMeanie/10.0.1.5 to localhost:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
Run Code Online (Sandbox Code Playgroud)
以下是我的系统的详细信息:
$ java -version
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)
$ hadoop version …Run Code Online (Sandbox Code Playgroud) 你能帮我解决以下情况吗?
1)在使用Hadoop V2时,我们是否在生产环境中使用Secondary NameNode?
2) 对于 Hadoop V2,假设我们在主动/被动连接中使用多个 NameNode 以实现高可用性,并且当编辑日志文件变得越来越大时,
编辑日志如何应用于 fsimage?如果是这样,那么在 Namenode 启动期间将巨大的 Edits 日志应用到 Namenode 会很耗时吗?(我们在 hadoop v1 中有 Secondary NameNode 来解决这个问题)
我是 hadoop mapreduce 编程范例的新手,有人可以告诉我如何轻松地根据值进行排序吗?我尝试实现另一个比较器类,但是有没有更简单的方法,例如通过作业配置来根据减速器的值进行排序。基本上我正在阅读日志文件,并且我想按升序对 hitcount 进行排序。
public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
private final static IntWritable ONE = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
String[] split = value.toString().split(" ");
for(int i=0; i<split.length; i++){
if (i==6)
word.set(split[i]);
context.write(word, ONE);
}
}
}
public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values, Context …Run Code Online (Sandbox Code Playgroud) 我需要帮助。我正在使用 python 代码从网页下载文件并将其放置在本地文件系统中,然后使用 put 命令将其传输到 HDFS,然后对其执行操作。
但是在某些情况下,文件大小会非常大,下载到本地文件系统不是一个正确的过程。因此,我希望将文件直接下载到 HDFS 中,而根本不使用本地文件系统。
任何人都可以向我建议一些方法,哪种方法是最好的方法?如果我的问题有任何错误,请纠正我。
我正在尝试 beeline cli 查询配置单元表并将输出结果存储为变量。使用 beeline 命令:
beeline -u connection_string -n user_name -w password_file \
-e "select count(*) from db.table_name"
Run Code Online (Sandbox Code Playgroud)
使用这个命令,我得到当前的输出结果为:
+---------------+--+
| record_count |
+---------------+--+
| 80785 |
+---------------+--+
Run Code Online (Sandbox Code Playgroud)
虽然我需要结果为: Record count:80785
我正在使用的另一个命令是:
beeline -u connection_string -n user_name -w password_file \
-e "select * from db.table_name;” > result.csv
Run Code Online (Sandbox Code Playgroud)
这再次以表格格式数据显示结果,以|.
默认情况下,beeline 基本上是返回 header( table_name.column_name),然后是表格格式的数据。然而,我想消除这一点并获得像 hive CLI 这样的结果。
Added Depedency Pom Details :
<dependencies>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-clients_2.11</artifactId>
<version>1.7.1</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-streaming-java_2.11</artifactId>
<version>1.7.1</version>
<scope>provided</scope>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-core</artifactId>
<version>1.7.1</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-java</artifactId>
<version>1.7.1</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-runtime_2.11</artifactId>
<version>1.7.1</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table_2.11</artifactId>
<version>1.7.1</version>
<scope>provided</scope>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-kafka-0.10_2.11</artifactId>
<version>1.7.1</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-filesystem_2.11</artifactId>
<version>1.7.1</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-hadoop-compatibility_2.11</artifactId>
<version>1.7.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-s3-fs-hadoop</artifactId>
<version>1.7.1</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-shaded-hadoop</artifactId>
<version>1.7.1</version>
<type>pom</type>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-aws</artifactId>
<version>2.8.5</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.8.5</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.8.5</version>
</dependency> …Run Code Online (Sandbox Code Playgroud) 安装和配置我Hadoop 2.2.0的伪分布式模式后,一切都在运行,如下所示jps:
$ jps
2287 JobHistoryServer
1926 ResourceManager
2162 NodeManager
1834 DataNode
1756 NameNode
3013 Jps
Run Code Online (Sandbox Code Playgroud)
然后我运行了wordcount示例
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /user/hdfs/file /output
Run Code Online (Sandbox Code Playgroud)
执行frezees(?)如下:
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /user/hdfs/file /output
OpenJDK 64-Bit Server VM warning: You have loaded library /home/hduser/hadoop-src/hadoop-2.2.0/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.
It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.
14/04/22 …Run Code Online (Sandbox Code Playgroud) 我最近在接受一家公司的采访时遇到了一些问题。由于我是Hadoop的新手,所以有人可以告诉我正确的答案吗?
问题:
请提供一些有用的资源,以便我可以更好地学习。谢谢
我使用以下命令在 hdfs 中创建了一个文件
hdfs dfs -touchz /hadoop/dir1/file1.txt
Run Code Online (Sandbox Code Playgroud)
我可以使用以下命令查看创建的文件
hdfs dfs -ls /hadoop/dir1/
Run Code Online (Sandbox Code Playgroud)
但是,我无法使用 linux 命令(使用 find 或 locate)找到位置本身。我在互联网上搜索并找到了以下链接。 如何访问 Hadoop HDFS 中的文件?. 它说,hdfs 是虚拟存储。在这种情况下,它如何划分哪个或需要使用多少,元数据存储在哪里
是否将我在 hdfs-site.xml 中提到的虚拟存储的 datanode 位置用于存储所有数据?
我查看了 datanode 位置,并且有可用的文件。但是我找不到与我创建的文件或文件夹相关的任何内容。
(我使用的是 hadoop 2.6.0)
我正在尝试将最新的 Spark api 与 SparkSession 一起使用。
当我导入包时,我的 Eclipse 在附件中显示错误。
我正在使用 2.10.6 scala 编译器。
请帮我解决这个问题。
