标签: hdfs

HBase和Hadoop/HDFS之间的区别

这是一个天真的问题,但我是NoSQL范式的新手并且对此并不了解.所以,如果有人可以帮助我清楚地理解HBase和Hadoop之间的区别,或者给出一些可能有助于我理解差异的指针.

直到现在,我做了一些研究和acc.根据我的理解,Hadoop提供框架来处理HDFS中的原始数据块(文件),而HBase是Hadoop之上的数据库引擎,它基本上使用结构化数据而不是原始数据块.与SQL一样,Hbase在HDFS上提供逻辑层.这是对的吗?

请随时纠正我.

谢谢.

hadoop hbase nosql hdfs difference

129
推荐指数
4
解决办法
7万
查看次数

如何将文件从HDFS复制到本地文件系统

如何将文件从HDFS复制到本地文件系统.文件下没有文件的物理位置,甚至没有目录.我如何将它们移动到我的本地进行进一步的验证.我通过winscp尝试过.

hadoop copy hdfs

124
推荐指数
5
解决办法
26万
查看次数

Spark - 将CSV文件加载为DataFrame?

我想在spark中读取CSV并将其转换为DataFrame并将其存储在HDFS中 df.registerTempTable("table_name")

我试过了:

scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv")
Run Code Online (Sandbox Code Playgroud)

我得到的错误:

java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10]
    at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418)
    at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277)
    at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276)
    at scala.collection.parallel.mutable.ParArray$Map.leaf(ParArray.scala:658)
    at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:54)
    at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53)
    at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53)
    at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:56)
    at scala.collection.parallel.mutable.ParArray$Map.tryLeaf(ParArray.scala:650)
    at scala.collection.parallel.AdaptiveWorkStealingTasks$WrappedTask$class.compute(Tasks.scala:165)
    at scala.collection.parallel.AdaptiveWorkStealingForkJoinTasks$WrappedTask.compute(Tasks.scala:514)
    at scala.concurrent.forkjoin.RecursiveAction.exec(RecursiveAction.java:160)
    at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
    at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
    at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
    at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
Run Code Online (Sandbox Code Playgroud)

在Apache Spark中将CSV文件作为DataFrame加载的正确命令是什么?

hadoop scala hdfs apache-spark apache-spark-sql

120
推荐指数
7
解决办法
31万
查看次数

Hadoop流程记录如何跨块边界分割?

根据 Hadoop - The Definitive Guide

FileInputFormats定义的逻辑记录通常不适合HDFS块.例如,TextInputFormat的逻辑记录是行,它们将经常跨越HDFS边界.这与你的程序的功能没有关系 - 例如,线路不会丢失或损坏 - 但值得了解,因为它确实意味着数据本地地图(即,与他们在同一主机上运行的地图)输入数据)将执行一些远程读取.这导致的轻微开销通常不显着.

假设记录行分为两个块(b1和b2).处理第一个块(b1)的映射器将注意到最后一行没有EOL分隔符,并从下一个数据块中取出剩余的行(b2).

映射器如何处理第二个块(b2)如何确定第一个记录是不完整的并且应该从块(b2)中的第二个记录开始处理?

hadoop split mapreduce block hdfs

118
推荐指数
3
解决办法
3万
查看次数

名称节点处于安全模式.不能离开

root# bin/hadoop fs -mkdir t
mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode.
Run Code Online (Sandbox Code Playgroud)

无法在hdfs中创建任何内容

我做到了

root# bin/hadoop fs -safemode leave
Run Code Online (Sandbox Code Playgroud)

但显示

safemode: Unknown command
Run Code Online (Sandbox Code Playgroud)

问题是什么?

hadoop hdfs

115
推荐指数
7
解决办法
18万
查看次数

镶木地板格式与其他格式相比有哪些优缺点?

Apache Parquet的特点是:

  • 自描述
  • 列式格式
  • 与语言无关

与Avro,序列文件,RC文件等相比.我想要格式的概述.我已经读过:Impala如何与Hadoop文件格式配合使用,它提供了一些格式的见解,但我想知道如何以这些格式完成数据访问和数据存储.木地板如何优于其他木地板?

hadoop file hdfs avro parquet

112
推荐指数
4
解决办法
7万
查看次数

Map Reduce Programming中减速器中的混洗和排序阶段的目的是什么?

在Map Reduce编程中,reduce阶段具有随机,排序和减少作为其子部分.排序是一件昂贵的事情.

Map Reduce Programming中减速器中的混洗和排序阶段的目的是什么?

sorting hadoop shuffle mapreduce hdfs

106
推荐指数
3
解决办法
10万
查看次数

"hadoop fs"shell命令和"hdfs dfs"shell命令之间有什么区别?

他们应该是平等的吗?

但是,为什么" hadoop fs"命令显示hdfs files" hdfs dfs"命令显示本地文件?

这是hadoop版本信息:

Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git://ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1/source -r由jenkins编写,于4月22日星期一10:48:26 PDT 2013

hadoop hdfs

100
推荐指数
5
解决办法
6万
查看次数

检查HDFS目录大小的方法?

我知道du -sh常见的Linux文件系统.但是如何用HDFS做到这一点?

directory command-line hadoop hdfs

86
推荐指数
5
解决办法
14万
查看次数

Hive在哪里存储HDFS中的文件?

我想知道如何找到Hive表与它们所代表的实际HDFS文件(或更确切地说,目录)之间的映射.我需要直接访问表文件.

Hive将文件存储在HDFS中的哪个位置?

hadoop hive hdfs

67
推荐指数
5
解决办法
13万
查看次数