小编sam*_*rth的帖子

BufferedReader的低性能

我正在逐行处理一些文本文件BufferReader.readlLine().

两个文件具有相同的大小130MB,但一个需要40秒才能处理,而其他文件需要75秒.

我注意到一个文件有180万行,而其他文件有210万行.但是,当我尝试处理具有相同大小的300万行的文件时,需要30分钟来处理.

所以我的问题是:

这种行为是因为寻求缓冲区读取器的时间(我想知道如何BufferedReader逐行工作或解析文件？)
有没有什么方法可以更快地逐行读取文件？

好的朋友,我提供更多细节.

我正在使用正则表达式将该行拆分为三个部分,然后使用SimpleUnsortedWriter(由Cassandra提供)我将其作为键,列和值写入某个文件.处理完16MB数据后,它会刷新到磁盘.

但是处理逻辑对于所有文件都是相同的,甚至一个大小为330MB的文件,但是在30秒内没有大约100万行的处理逻辑.可能是什么原因？

deviceWriter = new SSTableSimpleUnsortedWriter(
        directory,
        keyspace,
        "Devices",
        UTF8Type.instance,
        null,
        16);

Pattern pattern = Pattern.compile("[\\[,\\]]");
while ((line = br.readLine()) != null)          
{
    //split the line i n row column and value
    long timestamp = System.currentTimeMillis() * 1000;
    deviceWriter .newRow(bytes(rowKey));
    deviceWriter .addColumn(bytes(colmName), bytes(value), timestamp);

}

Run Code Online (Sandbox Code Playgroud)

已经改变了,-Xmx256M to -Xmx 1024M但无论如何都没有帮助.

更新: 根据我的观察,当我写入缓冲区(在物理内存中)时,就像没有.写入缓冲区正在增加新的写入需要时间.(这是我的猜测)

请回复.

java text-processing readline seek bufferedreader

sam*_*rth

2012 03-07

6
推荐指数

1
解决办法

4982
查看次数

如何删除根目录中没有空闲空间的"dead.letter"文件

今天我注意到dead.letter文件是在我的一个EC2实例的根目录中创建的.
经过一番查询,我发现这是因为一些不完整或终止的电子邮件功能而创建的.
它的大小为6 GiB,并且在根目录中没有留下任何空闲空间.
我删除了文件仍然我的根目录显示没有可用空间.

知道如何删除此文件并释放根空间吗？

unix linux filesystems email root

sam*_*rth

lucky-day

6
推荐指数

2
解决办法

2万
查看次数

即使所有节点都已启动并运行,群集中的某些cassandra节点也无法访问

我在ec2上有6个节点的cassandra集群,很多时候我发现集群中的所有节点都已启动并运行,但是当我从客户端执行描述集群时,它会显示一些节点无法访问.

我可以登录个人机器
可以使用cassandra客户端连接到cassandra节点
可以使用JMX连接到各个节点.

jmx cluster-computing amazon-ec2 cassandra reachability

sam*_*rth

2012 12-06

5
推荐指数

1
解决办法

1185
查看次数

Hadoop为java.nio.ByteBuffer的keytype抛出ClassCastException

我正在使用"hadoop-0.20.203.0rc1.tar.gz"进行群集设置.每当我设定job.setMapOutputKeyClass(ByteBuffer.class);

并运行我得到以下异常的工作:

    12/01/13 15:09:00 INFO mapred.JobClient: Task Id : attempt_201201131428_0005_m_000001_2, Status : FAILED
java.lang.ClassCastException: class java.nio.ByteBuffer
        at java.lang.Class.asSubclass(Class.java:3018)
        at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:776)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:958)
        at org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.java:673)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:755)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:369)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:259)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059)
        at org.apache.hadoop.mapred.Child.main(Child.java:253)

Run Code Online (Sandbox Code Playgroud)

另外我注意到ByteBuffer是Comparable而不是Writable是否会产生任何差异？如果需要任何其他信息,请与我们联系.

hadoop bytebuffer mapreduce hadoop-streaming

sam*_*rth

2012 10-24

5
推荐指数

1
解决办法

2260
查看次数