我是新手.我已成功设置单节点hadoop集群用于开发目的,除此之外,我已经安装了hive和pig.
我在hive中创建了一个虚拟表:
create table foo (id int, name string);
Run Code Online (Sandbox Code Playgroud)
现在,我想在此表中插入数据.我可以像sql一样一次添加数据吗?请帮我一个类似的命令:
insert into foo (id, name) VALUES (12,"xyz);
Run Code Online (Sandbox Code Playgroud)
另外,我有一个csv文件,其中包含以下格式的数据:
1,name1
2,name2
..
..
..
1000,name1000
Run Code Online (Sandbox Code Playgroud)
如何将这些数据加载到虚拟表中?
我已经设置了一个单节点多用户hadoop集群.在我的群集中,有一个管理员用户负责运行群集(超级用户).所有其他用户都分配了一个hdfs目录,如/ home/xyz,其中xyz是用户名.
在unix中,我们可以在/ etc/passwd中更改用户的默认主目录.默认情况下,用户的登录目录是主目录.
我如何在hadoop中为hdfs文件系统做到这一点.我想要例如,如果用户在unix提示符下键入:$ hadoop dfs -ls.它应列出我分配的主目录的内容.
此外,hdfs目录由运行集群的超级用户(hadoop超级用户而不是unix root)创建,然后将所有权转移给特定用户.
我正在学习在hadoop集群上工作.我已经在hadoop流上工作了一段时间,我在perl/python中编写了map-reduce脚本并运行了这个工作.但是,我没有找到任何关于运行java map reduce作业的好解释.例如:我有以下程序 -
http://www.infosci.cornell.edu/hadoop/wordcount.html
有人可以告诉我如何编译这个程序并运行这个工作.