我们将在我们的数据湖项目中进行摄取阶段,并且我主要hadoop fs -put在我的Hadoop开发人员体验中使用过.那么差异hadoop distcp和使用的差异是什么?
Distcp是一种特殊工具,用于将数据从一个集群复制到另一个集群.基本上,您通常从一个hdfs复制到hdfs,但不能复制到本地文件系统.另一个非常重要的事情是,作为具有0的mapreduce作业完成的过程减少了任务,这使得它由于操作的分配而更快.它将文件和目录列表扩展为映射任务的输入,每个任务都将复制源列表中指定的文件的分区
hdfs put - 将数据从本地系统复制到hdfs.在场景后面使用hdfs客户端,并通过访问NameNode和Datanodes按顺序完成所有工作.不创建用于处理数据的MapReduce作业.