chh*_*rma 9 hadoop hdfs webhdfs
我正在使用webhdfs在hadoop hdfs中加载28 GB文件,加载大约需要25分钟.
我尝试使用hdfs put加载相同的文件,花了大约6分钟.为什么性能差异如此之大?
建议使用什么?有人可以解释或指导我一些良好的链接,这将是非常有帮助的.
在我们下面是我正在使用的命令
curl -i --negotiate -u: -X PUT "http://$hostname:$port/webhdfs/v1/$destination_file_location/$source_filename.temp?op=CREATE&overwrite=true"
Run Code Online (Sandbox Code Playgroud)
这将重定向到我在下一步用于写入数据的datanode地址.
rby*_*oor 14
Hadoop提供了几种访问HDFS的方法
以下所有内容几乎支持文件系统的所有功能 -
1. FileSystem(FS)shell命令:提供Hadoop文件系统操作以及Hadoop支持的其他文件系统的轻松访问,例如Local FS,HFTP FS,S3 FS.
这需要安装hadoop客户端并让客户端直接将块写入一个数据节点.所有版本的Hadoop都不支持在文件系统之间进行复制的所有选项.2. WebHDFS: 它定义了一个公共HTTP REST API,允许客户端从多种语言访问Hadoop而无需安装Hadoop,Advantage是语言无关的方式(curl,php等......).
WebHDFS需要访问集群的所有节点,并且当读取某些数据时,它直接从源节点传输,但是存在http over(1)FS Shell 的开销,但是在不同的情况下工作并且不同的hadoop集群和版本没有问题.3. HttpFS.在防火墙后面的集群中读取和写入数据到HDFS.单个节点将充当GateWay节点,通过该节点将传输所有数据并且性能明智我认为这可能更慢但是当需要将数据从公共源提取到安全集群时是首选.
所以选择正确!当你无法选择上面的选择时,列表将永远是一个替代选择.
Hadoop提供FileSystem Shell API以支持文件系统操作,例如创建,重命名或删除文件和目录,打开,读取或写入文件.FileSystem shell是一个java应用程序,它使用java FileSystem类来提供FileSystem操作.FileSystem Shell API为操作创建RPC连接.
如果客户端在Hadoop集群中,那么这很有用,因为它使用hdfsURI方案连接hadoop分布式FileSystem,因此客户端建立直接RPC连接以将数据写入HDFS.
这对于在Hadoop集群中运行的应用程序很有用,但可能存在外部应用程序需要操作HDFS的用例,就像它需要创建目录并将文件写入该目录或读取存储在HDFS上的文件的内容一样.Hortonworks开发了一个API,以支持基于称为WebHDFS的标准REST功能的这些需求.
WebHDFS提供REST API功能,任何外部应用程序都可以通过HTTP连接连接DistributedFileSystem.无论外部应用程序是Java还是PHP.
WebHDFS概念基于HTTP操作,如GET,PUT,POST和DELETE.像OPEN,GETFILESTATUS,LISTSTATUS这样的操作正在使用HTTP GET,其他像CREATE,MKDIRS,RENAME,SETPERMISSIONS则依赖于HTTP PUT
它通过HTTP提供对HDFS的安全读写访问.它基本上用于替代HFTP(通过HTTP进行只读访问)和HSFTP(通过HTTPS进行只读访问).它使用webhdfsURI方案连接分布式文件系统.
如果客户端位于Hadoop群集之外并尝试访问HDFS.WebHDFS对它很有用.如果你正在尝试连接两个不同版本的Hadoop集群,那么WebHDFS很有用,因为它使用REST API,因此它独立于MapReduce或HDFS版本.
小智 6
HDFS 访问和 WebHDFS 之间的区别在于可扩展性,这是由于 HDFS 的设计以及 HDFS 客户端将文件分解为位于不同节点中的碎片这一事实所致。当 HDFS 客户端访问文件内容时,它会在幕后访问 NameNode 并获取文件拆分列表及其在 Hadoop 集群上的物理位置。
然后,它可以执行所有这些位置上的 DataNode 并行获取分片中的块,将内容直接通过管道传输到客户端。
WebHDFS 是驻留在 HDFS 集群中的代理,它位于 HDFS 之上,因此所有数据都需要先流式传输到代理,然后才能中继到 WebHDFS 客户端。本质上,它变成了单点访问和 IO 瓶颈。
| 归档时间: |
|
| 查看次数: |
13359 次 |
| 最近记录: |