小编tho*_*lee的帖子

Hadoop:如何将reducer输出合并到一个文件？

我知道shell中的"getmerge"命令可以完成这项工作.

但是,如果我想在作业之后通过HDFS API for java合并这些输出,我该怎么办？

我真正想要的是HDFS上的单个合并文件.

我唯一能想到的就是在那之后再开始一份工作.

谢谢!

java merge hadoop mapreduce hdfs

tho*_*lee

2012 10-16

16
推荐指数

1
解决办法

1万
查看次数

Hadoop:reducer的数量不等于我在程序中设置的数量

我将mapred.tasktracker.reduce.tasks.maximum设置为10 in mapred-site.xml,我也写jobConf.setNumReduceTasks(5)了我的工作.

如果我在Shell运行这个工作,一切都还可以.

但是当我通过eclipse运行相同的工作时,只启动了一个减速器.

我尝试在eclipse中编辑Map/Reduce Locations,并设置mapred.reduce.tasks为10.但是这仍然不起作用.

我可以在eclipse中调整其他参数吗？

java hadoop mapreduce

tho*_*lee

2012 10-17

2
推荐指数

1
解决办法

975
查看次数

对从Perl中的文件读取感到困惑

当我想从文件中读取时,我使用以下代码:

open my $fh, "file_path";
while(<$fh>)
{
    # do something here
}

Run Code Online (Sandbox Code Playgroud)

但是如果文件非常大,我担心IO性能,因为它逐行读取磁盘.

在C程序中,我们可能更喜欢一次将几个字节(例如:4096字节)读入内存(调用'fread'函数).这可以减少磁盘IO操作的数量,并有利于程序的性能.

所以我的问题是:在Perl中有没有办法一次从文件中读取多行或几个字节？或者Perl将封装IO细节,我不需要担心吗？

io perl performance file

tho*_*lee

2014 02-03

0
推荐指数

1
解决办法

180
查看次数

关于JAVA编码识别

我有一个字符串,如"%E6%B1%82%E5%8A%A9".

我的问题是我怎么知道它是由"UTF-8"编码的.它似乎也像GBK(或GB2312)编码.

谢谢.

java encoding utf-8

tho*_*lee

lucky-day

-1
推荐指数

1
解决办法

211
查看次数

标签统计

java ×3

hadoop ×2

mapreduce ×2

encoding ×1

file ×1

hdfs ×1

io ×1

merge ×1

performance ×1

perl ×1

utf-8 ×1

Hadoop:如何将reducer输出合并到一个文件？

Hadoop:reducer的数量不等于我在程序中设置的数量

对从Perl中的文件读取感到困惑

关于JAVA编码识别

标签 统计

小编tho_lee的帖子

标签统计