小编Vir*_*iru的帖子

将1GB数据加载到hbase中需要1小时

我想将1GB(1000万条记录)CSV文件加载到Hbase中.我为它写了Map-Reduce程序.我的代码工作正常但需要1小时才能完成.最后一个减速机需要超过半小时的时间.有人可以帮帮我吗?

我的守则如下:

Driver.Java


    package com.cloudera.examples.hbase.bulkimport;

    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.hbase.HBaseConfiguration;
    import org.apache.hadoop.hbase.KeyValue;
    import org.apache.hadoop.hbase.client.HTable;
    import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
    import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

    /**
     * HBase bulk import example
* Data preparation MapReduce job driver *
    *
  1. args[0]: HDFS input path *
  2. args[1]: HDFS output path *
  3. args[2]: HBase table name *
*/ public class Driver { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); /* * NBA Final 2010 game …

java hadoop hbase mapreduce hadoop2

5
推荐指数
2
解决办法
2184
查看次数

如何将文件拆分为多个文件?

我想将文件拆分成多个文件.我的意见是

Report : 1
ABC
DEF
GHI
JKL
   End of Report
$
Report : 2
ABC
DEF
GHI
JKL
$
Report : 2
ABC
DEF
GHI
JKL
   End of Report  
$
Report : 3
ABC
DEF
GHI
JKL
   End of Report
$
Run Code Online (Sandbox Code Playgroud)

输出应该是:

档案1

Report : 1
ABC
DEF
GHI
JKL
   End of Report
$
Run Code Online (Sandbox Code Playgroud)

档案2

Report : 2
ABC
DEF
GHI
JKL
$
Report : 2
ABC
DEF
GHI
JKL
   End of Report  
$
Run Code Online (Sandbox Code Playgroud)

档案3

Report : 3
ABC …
Run Code Online (Sandbox Code Playgroud)

unix linux awk

1
推荐指数
2
解决办法
232
查看次数

标签 统计

awk ×1

hadoop ×1

hadoop2 ×1

hbase ×1

java ×1

linux ×1

mapreduce ×1

unix ×1