小编chh*_*rma的帖子

Hadoop中的校验和验证

我们需要在通过Webhdfs从Linux服务器将文件移动到Hadoop(HDFS)后验证校验和吗?

我想确保HDFS上的文件在复制后没有损坏.但检查校验和是否必要?

在将数据写入HDFS之前,我读取客户端做校验和

有人可以帮助我理解如何确保Linux系统上的源文件与使用webhdfs的Hdfs上的摄取文件相同.

hadoop checksum hdfs

11
推荐指数
3
解决办法
2万
查看次数

Hdfs把VS webhdfs

我正在使用webhdfs在hadoop hdfs中加载28 GB文件,加载大约需要25分钟.

我尝试使用hdfs put加载相同的文件,花了大约6分钟.为什么性能差异如此之大?

建议使用什么?有人可以解释或指导我一些良好的链接,这将是非常有帮助的.

在我们下面是我正在使用的命令

curl -i --negotiate -u: -X PUT "http://$hostname:$port/webhdfs/v1/$destination_file_location/$source_filename.temp?op=CREATE&overwrite=true"
Run Code Online (Sandbox Code Playgroud)

这将重定向到我在下一步用于写入数据的datanode地址.

hadoop hdfs webhdfs

9
推荐指数
3
解决办法
1万
查看次数

将查询结果存储在变量中

我有一个查询,其结果我想存储在变量中我该怎么做?我试过了

./hive -e  "use telecom;insert overwrite local directory '/tmp/result' select
avg(a) from abc;"

./hive --hiveconf MY_VAR =`cat /tmp/result/000000_0`;
Run Code Online (Sandbox Code Playgroud)

我能够在MY_VAR中获得平均值,但它需要我的hive CLI,这不是必需的,有没有办法在hive CLI中访问unix命令?

variables hadoop hive

7
推荐指数
2
解决办法
4万
查看次数

永久添加蜂巢罐

有没有什么方法可以永久添加hive jar而不是在hive shell中添加会话级别?

任何帮助,将不胜感激

hadoop hive

7
推荐指数
2
解决办法
1万
查看次数

将参数传递给sqoop作业

我正在为Oozie安排一个sqoop工作,以便将每日数据加载到Hive中.

我想基于Date作为参数对hive进行增量加载,该参数将传递给sqoop作业

研究完之后,我无法找到将参数传递给Sqoop作业的方法

hadoop hive sqoop

6
推荐指数
1
解决办法
6728
查看次数

可以使用PIG读取的文件格式

使用PIG可以读取哪种文件格式?

如何以不同的格式存储它们?假设我们有CSV文件,我想将其存储为MXL文件,如何做到这一点?每当我们使用STORE命令时它会创建目录并将文件存储为part-m-00000如何更改文件名并覆盖目录?

hadoop apache-pig

5
推荐指数
1
解决办法
6201
查看次数

在PIG中声明变量和模式

如何在PIG中声明变量?假设我想要一个整数值为10如何在脚本中声明它?以及如何重用架构?

hadoop apache-pig

5
推荐指数
1
解决办法
2万
查看次数

HDFS文件时间戳

我想在 hdfs 上获取文件的 last_modification 时间。我检查了 HDFS shell 指南,但没有得到任何可用的相关命令。

Hadoop 版本为 2.4.0。谁能建议我如何获得 hdfs 文件的 last_modification 时间?

提前致谢

datetime hadoop hdfs

5
推荐指数
1
解决办法
1万
查看次数

Hadoop的.关于HDFS中的文件创建

我读到,只要客户端需要在HDFS(Hadoop分布式文件系统)中创建文件,客户端的文件必须是64mb.真的吗? 我们如何在HDFS中加载小于64 MB的文件?我们可以加载一个文件,该文件仅供参考处理其他文件,并且必须可用于所有数据节点吗?

hadoop hdfs

2
推荐指数
1
解决办法
1420
查看次数

多个表连接在配置单元中

我已将Teradata表的数据迁移到配置单元中.

现在我必须在导入的数据之上构建汇总表.需要从五个源表构建汇总表

如果我使用连接,我需要加入五个表,是否可以在蜂巢中?或者我应该分五个部分打破查询?这个问题应该是什么方法?

请建议

hadoop hive teradata sqoop

2
推荐指数
1
解决办法
4万
查看次数

Talend Big数据工具的替代品

我想知道Talend等其他产品.我想知道竞争产品有没有?请建议

谢谢

bigdata talend

-3
推荐指数
1
解决办法
1699
查看次数

标签 统计

hadoop ×10

hdfs ×4

hive ×4

apache-pig ×2

sqoop ×2

bigdata ×1

checksum ×1

datetime ×1

talend ×1

teradata ×1

variables ×1

webhdfs ×1