标签: hadoop

Hadoop流程记录如何跨块边界分割？

根据 Hadoop - The Definitive Guide

FileInputFormats定义的逻辑记录通常不适合HDFS块.例如,TextInputFormat的逻辑记录是行,它们将经常跨越HDFS边界.这与你的程序的功能没有关系 - 例如,线路不会丢失或损坏 - 但值得了解,因为它确实意味着数据本地地图(即,与他们在同一主机上运行的地图)输入数据)将执行一些远程读取.这导致的轻微开销通常不显着.

假设记录行分为两个块(b1和b2).处理第一个块(b1)的映射器将注意到最后一行没有EOL分隔符,并从下一个数据块中取出剩余的行(b2).

映射器如何处理第二个块(b2)如何确定第一个记录是不完整的并且应该从块(b2)中的第二个记录开始处理？

hadoop split mapreduce block hdfs

Pra*_*ati

2015 09-04

118
推荐指数

3
解决办法

3万
查看次数

名称节点处于安全模式.不能离开

root# bin/hadoop fs -mkdir t
mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode.

Run Code Online (Sandbox Code Playgroud)

无法在hdfs中创建任何内容

我做到了

root# bin/hadoop fs -safemode leave

Run Code Online (Sandbox Code Playgroud)

但显示

safemode: Unknown command

Run Code Online (Sandbox Code Playgroud)

问题是什么？

解

hadoop hdfs

Unm*_*eni

2018 11-26

115
推荐指数

7
解决办法

18万
查看次数

镶木地板格式与其他格式相比有哪些优缺点？

Apache Parquet的特点是:

自描述
列式格式
与语言无关

与Avro,序列文件,RC文件等相比.我想要格式的概述.我已经读过:Impala如何与Hadoop文件格式配合使用,它提供了一些格式的见解,但我想知道如何以这些格式完成数据访问和数据存储.木地板如何优于其他木地板？

hadoop file hdfs avro parquet

Ani*_*non

2018 04-18

112
推荐指数

4
解决办法

7万
查看次数

Map Reduce Programming中减速器中的混洗和排序阶段的目的是什么？

在Map Reduce编程中,reduce阶段具有随机,排序和减少作为其子部分.排序是一件昂贵的事情.

Map Reduce Programming中减速器中的混洗和排序阶段的目的是什么？

sorting hadoop shuffle mapreduce hdfs

Nit*_*nil

2016 08-18

106
推荐指数

3
解决办法

10万
查看次数

Hive内部表和外部表之间的区别？

任何人都可以告诉我Hive的外部表和内部表之间的区别.我知道放下桌子时会有所不同.我不明白你的意思是什么,数据和元数据在内部被删除,只有元数据被删除在外部表中.任何人都可以用节点来解释我.

hadoop hive hiveql

Dre*_*ose

2017 11-27

105
推荐指数

5
解决办法

17万
查看次数

无法在hadoop二进制路径中找到winutils二进制文件

我在为最新的hadoop-2.2版本启动namenode时遇到以下错误.我没有在hadoop bin文件夹中找到winutils exe文件.我试过下面的命令

$ bin/hdfs namenode -format
$ sbin/yarn-daemon.sh start resourcemanager

ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
    at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278)
    at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300)
    at org.apache.hadoop.util.Shell.<clinit>(Shell.java:293)
    at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76)
    at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager.main(ResourceManager.java:863)

Run Code Online (Sandbox Code Playgroud)

hadoop

use*_*491

2013 10-28

104
推荐指数

7
解决办法

17万
查看次数

MapReduce排序算法如何工作？

用于演示MapReduce功能的主要示例之一是Terasort基准测试.我无法理解MapReduce环境中使用的排序算法的基础知识.

对我来说,排序只涉及确定元素与所有其他元素的相对位置.因此排序涉及将"一切"与"一切"进行比较.你的平均排序算法(快速,泡沫......)只是以聪明的方式做到这一点.

在我看来,将数据集分成多个部分意味着您可以对单个部分进行排序,然后您仍然必须将这些部分集成到"完整"的完全排序数据集中.鉴于分布在数千个系统上的TB级数据集,我认为这是一项艰巨的任务.

那怎么回事呢？这个MapReduce排序算法如何工作？

谢谢你帮我理解.

sorting algorithm parallel-processing hadoop mapreduce

Nie*_*jes

lucky-day

103
推荐指数

1
解决办法

6万
查看次数

"hadoop fs"shell命令和"hdfs dfs"shell命令之间有什么区别？

他们应该是平等的吗？

但是,为什么" hadoop fs"命令显示hdfs files" hdfs dfs"命令显示本地文件？

这是hadoop版本信息:

Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git://ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1/source -r由jenkins编写,于4月22日星期一10:48:26 PDT 2013

hadoop hdfs

Cha*_*Lin

2014 08-12

100
推荐指数

5
解决办法

6万
查看次数

是否有与Apache Hadoop等效的.NET？

所以,我一直在热切关注Hadoop,说实话我很着迷,事情并没有变得更酷.

我唯一的小问题是我是一个C#开发人员,而且是Java.

这并不是说我不了解Java,因为我正在寻找Hadoop.net或NHadoop或者包含Google MapReduce方法的.NET项目.有谁知道吗？

.net c# hadoop mapreduce

dan*_*ain

2013 03-09

96
推荐指数

5
解决办法

5万
查看次数

hadoop No FileSystem for scheme:file

我试图运行一个简单的NaiveBayesClassifer使用hadoop,得到这个错误

Exception in thread "main" java.io.IOException: No FileSystem for scheme: file
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1375)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1390)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:196)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:95)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:180)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:175)
    at org.apache.mahout.classifier.naivebayes.NaiveBayesModel.materialize(NaiveBayesModel.java:100)

Run Code Online (Sandbox Code Playgroud)

代码:

    Configuration configuration = new Configuration();
    NaiveBayesModel model = NaiveBayesModel.materialize(new Path(modelPath), configuration);// error in this line..

Run Code Online (Sandbox Code Playgroud)

modelPath指向NaiveBayes.bin文件,配置对象正在打印 -Configuration: core-default.xml, core-site.xml

我认为这是因为罐子,任何想法？

java io hadoop

Mah*_*ngh

2013 06-24

88
推荐指数

9
解决办法

9万
查看次数