Java ByteBuffer清除数据

And*_*han 1 java stringbuilder nio bytebuffer

我知道Java的ByteBuffer.clear()并不是真的要清除ByteBuffer中的所有数据,所以当我每次都使用StringBuilder.append()字符串时,最终结果总是在ByteBuffer中附加所有剩余的字符,这是旧的数据.写,所以如何解决这个问题?

int byteRead = -1;
int readCount = 0;
int BUFFER_SIZE = 256;
StringBuilder sb = new StringBuilder();
ByteBuffer buffer = ByteBuffer.allocate(BUFFER_SIZE);
ReadableByteChannel readableByteChannel = Channels.newChannel(is);
while ((byteRead = readableByteChannel.read(buffer)) > 0 && readCount < 68) {
    sb.append(new String(buffer.array(), "UTF-8"));
    buffer.clear();
    readCount++;
}
Run Code Online (Sandbox Code Playgroud)

Hol*_*ger 5

正如其他答案已经指出的那样,您必须考虑缓冲区的位置,该位置由read方法更新.所以正确的代码如下:

while ((byteRead = readableByteChannel.read(buffer)) > 0 && readCount < 68) {
    sb.append(new String(buffer.array(),
        buffer.arrayOffset(), buffer.arrayOffset()+buffer.position(), "UTF-8"));
    buffer.clear();
    readCount++;
}
Run Code Online (Sandbox Code Playgroud)

请注意,在您的特殊情况下,arrayOffset()将始终为零,但您最好以某种方式编写代码,当您在缓冲区分配代码中更改某些内容时,它不会中断.

但这段代码被打破了.当您读取多字节UTF-8序列时,可能会发生该序列的第一个字节在一个操作中被读取而剩余的字节在下一个字节中被读取.您尝试String从这些不完整的序列创建实例将产生无效字符.除此之外,您正在创建这些String实例,只是为了将其内容复制到a StringBuilder,这是非常低效的.

所以,要正确地做,你应该做的事情如下:

int readCount = 0;
int BUFFER_SIZE = 256;
StringBuilder sb = new StringBuilder();
CharsetDecoder dec=StandardCharsets.UTF_8.newDecoder();
ByteBuffer buffer = ByteBuffer.allocate(BUFFER_SIZE);
CharBuffer cBuffer= CharBuffer.allocate(BUFFER_SIZE);
ReadableByteChannel readableByteChannel = Channels.newChannel(is);
while(readableByteChannel.read(buffer) > 0 && readCount < 68) {
    buffer.flip();
    while(dec.decode(buffer, cBuffer, false).isOverflow()) {
        cBuffer.flip();
        sb.append(cBuffer);
        cBuffer.clear();
    }
    buffer.compact();
    readCount++;
}
buffer.flip();
for(boolean more=true; more; ) {
    more=dec.decode(buffer, cBuffer, true).isOverflow();
    cBuffer.flip();
    sb.append(cBuffer);
    cBuffer.clear();
}
Run Code Online (Sandbox Code Playgroud)

注意,两者是如何,ReadableByteChannel以及CharsetDecoder过程中使用它们的位置和范围的缓冲区.您所要做的就是使用flipcompact正确使用,如文档中所示compact.

唯一的例外是追加Stringbuilder,因为那不是NIO功能.在那里,我们必须使用clear(),因为我们知道该Stringbuilder.append操作确实消耗了缓冲区中的所有字符.

请注意,此代码仍然不处理某些(不可避免的)错误条件,因为在任意数量的reads 之后停止,您总是可以在多字节UTF-8序列的中间切入.


但是这个非常复杂的逻辑已经由JRE实现,如果你放弃了在一定数量的字节之后切割的想法,你可以利用它:

int readCount = 0;
int BUFFER_SIZE = 256;
StringBuilder sb = new StringBuilder();
CharBuffer cBuffer= CharBuffer.allocate(BUFFER_SIZE);
ReadableByteChannel readableByteChannel = Channels.newChannel(is);
Reader reader=Channels.newReader(readableByteChannel, "UTF-8");
while(reader.read(cBuffer) > 0 && readCount < 68) {
    cBuffer.flip();
    sb.append(cBuffer);
    cBuffer.clear();
    readCount++;
}
Run Code Online (Sandbox Code Playgroud)

现在这段代码会将读数限制为256 × 68 字符而不是字节,但对于UTF-8编码数据,这只会在存在多字节序列时产生差异,您之前显然并不关心这些序列.

最后,因为你显然首先有一个InputStream,所以你根本不需要ReadableByteChannel绕道而行:

int readCount = 0;
int BUFFER_SIZE = 256;
StringBuilder sb = new StringBuilder();
CharBuffer cBuffer = CharBuffer.allocate(BUFFER_SIZE);
Reader reader = new InputStreamReader(is, StandardCharsets.UTF_8);
while(reader.read(cBuffer) > 0 && readCount < 68) {
    cBuffer.flip();
    sb.append(cBuffer);
    cBuffer.clear();
    readCount++;
}
Run Code Online (Sandbox Code Playgroud)

这可能看起来像"不是NIO代码",但Readers仍然是读取字符数据的规范方式,即使使用NIO也是如此; 没有替代品.NIO的第一个版本中缺少该方法Reader.read(CharBuffer),但是使用Java 5.