标签: hadoop

hadoop fs -put和hadoop fs -copyFromLocal之间的区别

-put-copyFromLocal记录为相同,而大多数示例使用详细变量-copyFromLocal.为什么?

同样的事情-get-copyToLocal

hadoop hdfs

51
推荐指数
3
解决办法
5万
查看次数

如何杀死hadoop工作

当我的代码遇到未处理的异常时,我想自动杀死所有的hadoop作业.我想知道这样做的最佳做法是什么?

谢谢

jobs hadoop kill

51
推荐指数
3
解决办法
11万
查看次数

Hive cluster by vs order by vs sort by

据我所理解;

  • 只在reducer中排序

  • 按订单排序全球,但将所有东西都推到一个减速器中

  • 通过密钥散列智能地将东西分配到reducers中并进行排序

所以我的问题是集群保证全球秩序?分配通过将相同的密钥放入相同的减速器但是相邻的密钥呢?

我能在这里找到的唯一文件就是这里,从示例中可以看出它是全局命令的.但从定义来看,我觉得并不总是如此.

hadoop hive hql

51
推荐指数
4
解决办法
7万
查看次数

使用Java在hdfs中编写文件

我想在HDFS中创建一个文件并在其中写入数据.我用过这段代码:

Configuration config = new Configuration();     
FileSystem fs = FileSystem.get(config); 
Path filenamePath = new Path("input.txt");  
try {
    if (fs.exists(filenamePath)) {
        fs.delete(filenamePath, true);
    }

    FSDataOutputStream fin = fs.create(filenamePath);
    fin.writeUTF("hello");
    fin.close();
}
Run Code Online (Sandbox Code Playgroud)

它会创建文件,但不会在其中写入任何内容.我搜索了很多但没有找到任何东西.我的问题是什么?我是否需要获得HDFS写入权限?

谢谢.

java hadoop hdfs

51
推荐指数
3
解决办法
9万
查看次数

PIG如何计算别名中的多个行

我做了类似这样的事情来计算PIG中别名的行数:

logs = LOAD 'log'
logs_w_one = foreach logs generate 1 as one;
logs_group = group logs_w_one all;
logs_count = foreach logs_group generate SUM(logs_w_one.one);
dump logs_count;
Run Code Online (Sandbox Code Playgroud)

这似乎效率太低.如果有更好的方法请赐教!

hadoop apache-pig

50
推荐指数
5
解决办法
10万
查看次数

Hbase快速计算行数

现在我ResultScanner像这样实现行计数

for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
    number++;
}
Run Code Online (Sandbox Code Playgroud)

如果数据达到数百万计算时间很大.我想实时计算我不想使用Mapreduce

如何快速计算行数.

hadoop hbase bigdata

49
推荐指数
6
解决办法
10万
查看次数

如何从Apache Spark访问s3a://文件?

Hadoop 2.6不支持开箱即用的s3a,所以我尝试了一系列解决方案和修复,包括:

部署与hadoop-aws和aws-java-sdk =>无法读取环境变量的凭据将hadoop-aws添加到maven =>各种传递依赖冲突

有没有人成功地使两者都有效?

hadoop amazon-s3 apache-spark

49
推荐指数
5
解决办法
6万
查看次数

Apache Hadoop YARN中'mapreduce.map.memory.mb'和'mapred.map.child.java.opts'之间的关系是什么?

我想知道mapreduce.map.memory.mbmapred.map.child.java.opts参数之间的关系.

mapreduce.map.memory.mb> mapred.map.child.java.opts

谢谢,Kewal.

apache configuration hadoop heap-size hadoop-yarn

48
推荐指数
2
解决办法
5万
查看次数

如何查看Spark版本

我想检查cdh 5.7.0中的spark版本.我在互联网上搜索但无法理解.请帮忙.

谢谢

hadoop bigdata cloudera apache-spark

47
推荐指数
2
解决办法
9万
查看次数

Hadoop集群设置 - java.net.ConnectException:连接被拒绝

我想在伪分布式模式下设置一个hadoop-cluster.我设法执行所有设置步骤,包括在我的机器上启动Namenode,Datanode,Jobtracker和Tasktracker.

然后我尝试运行一些示例程序并面对java.net.ConnectException: Connection refused错误.我回到了以独立模式运行某些操作的最初步骤,并遇到了同样的问题.

我甚对所有安装步骤进行了三重检查,并且不知道如何修复它.(我是Hadoop和初学Ubuntu用户的新手,因此,如果提供任何指南或提示,我恳请您"考虑到它").

这是我一直收到的错误输出:

hduser@marta-komputer:/usr/local/hadoop$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
15/02/22 18:23:04 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
15/02/22 18:23:04 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
java.net.ConnectException: Call From marta-komputer/127.0.1.1 to localhost:9000 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:408)
    at org.apache.hadoop.net.NetUtils.wrapWithMessage(NetUtils.java:791)
    at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:731)
    at …
Run Code Online (Sandbox Code Playgroud)

java configuration hadoop connectexception

46
推荐指数
3
解决办法
12万
查看次数