如何将二进制文件读入无符号字符的向量中

Lih*_*ihO 62 c++ file-io binaryfiles vector

最近我一直在问编写一个函数读取二进制文件到std::vector<BYTE>哪里BYTEunsigned char.我很快就找到了这样的东西:

#include <fstream>
#include <vector>
typedef unsigned char BYTE;

std::vector<BYTE> readFile(const char* filename)
{
    // open the file:
    std::streampos fileSize;
    std::ifstream file(filename, std::ios::binary);

    // get its size:
    file.seekg(0, std::ios::end);
    fileSize = file.tellg();
    file.seekg(0, std::ios::beg);

    // read the data:
    std::vector<BYTE> fileData(fileSize);
    file.read((char*) &fileData[0], fileSize);
    return fileData;
}
Run Code Online (Sandbox Code Playgroud)

这似乎是不必要的复杂,并且char*我在呼叫时被迫使用的明确演员file.read并没有让我感觉更好.


另一种选择是使用std::istreambuf_iterator:

std::vector<BYTE> readFile(const char* filename)
{
    // open the file:
    std::ifstream file(filename, std::ios::binary);

    // read the data:
    return std::vector<BYTE>((std::istreambuf_iterator<char>(file)),
                              std::istreambuf_iterator<char>());
}
Run Code Online (Sandbox Code Playgroud)

这很简单,也很简短,但是std::istreambuf_iterator<char>当我读书时,我仍然要使用它std::vector<unsigned char>.


最后一个看起来非常简单的选项就是使用std::basic_ifstream<BYTE>,有点明确地表达了"我想要一个输入文件流,我想用它来读取BYTEs":

std::vector<BYTE> readFile(const char* filename)
{
    // open the file:
    std::basic_ifstream<BYTE> file(filename, std::ios::binary);

    // read the data:
    return std::vector<BYTE>((std::istreambuf_iterator<BYTE>(file)),
                              std::istreambuf_iterator<BYTE>());
}
Run Code Online (Sandbox Code Playgroud)

但我不确定basic_ifstream在这种情况下是否是一个合适的选择.

读取二进制文件的最佳方法是vector什么?我也想知道"幕后"发生什么,以及我可能会遇到的问题是什么(除了流没有正确打开,可以通过简单的is_open检查来避免).

是否有人愿意在std::istreambuf_iterator这里使用?
(我能看到的唯一优势就是简单)

jww*_*jww 30

在测试性能时,我会包含一个测试用例:

std::vector<BYTE> readFile(const char* filename)
{
    // open the file:
    std::ifstream file(filename, std::ios::binary);

    // Stop eating new lines in binary mode!!!
    file.unsetf(std::ios::skipws);

    // get its size:
    std::streampos fileSize;

    file.seekg(0, std::ios::end);
    fileSize = file.tellg();
    file.seekg(0, std::ios::beg);

    // reserve capacity
    std::vector<BYTE> vec;
    vec.reserve(fileSize);

    // read the data:
    vec.insert(vec.begin(),
               std::istream_iterator<BYTE>(file),
               std::istream_iterator<BYTE>());

    return vec;
}
Run Code Online (Sandbox Code Playgroud)

我的想法是方法1的构造函数触及了元素中的元素vector,然后read再次触及每个元素.

方法2和方法3看起来最有希望,但可能遭受一个或多个resize.因此,reserve在阅读或插入之前的原因.

我也会测试std::copy:

...
std::vector<byte> vec;
vec.reserve(fileSize);

std::copy(std::istream_iterator<BYTE>(file),
          std::istream_iterator<BYTE>(),
          std::back_inserter(vec));
Run Code Online (Sandbox Code Playgroud)

最后,我认为最好的解决方案将避免operator >>istream_iterator(和所有的开销和善良的operator >>试图解释二进制数据).但我不知道如何使用它可以直接将数据复制到矢量中.

最后,我显示的二进制数据测试ios::binary没有得到尊重.因此noskipws来自的原因<iomanip>.

  • 使用 vector::insert() 和迭代器非常慢。可能是因为调用了很多读取每个字节的虚函数。我什至等不及它完成读取一个大文件(在我的例子中为 3 GB),而且这是在发布模式下。通过将最后一部分更改为这一点,我获得了很大的加速。`std::vector&lt;uint8_t&gt; vec;` `vec.resize(fileSize);` `file.read(reinterpret_cast&lt;std::ifstream::char_type*&gt;(&amp;vec.front()), fileSize);` (3认同)

neo*_*eye 13

std::ifstream stream("mona-lisa.raw", std::ios::in | std::ios::binary);
std::vector<uint8_t> contents((std::istreambuf_iterator<char>(stream)), std::istreambuf_iterator<char>());

for(auto i: contents) {
    int value = i;
    std::cout << "data: " << value << std::endl;
}

std::cout << "file size: " << contents.size() << std::endl;
Run Code Online (Sandbox Code Playgroud)


Max*_*kin 6

由于您要将整个文件加载到内存中,因此最佳版本是将文件映射到内存中.这是因为内核无论如何都要将文件加载到内核页面缓存中,并通过映射文件将缓存中的那些页面暴露到您的进程中.也称为零拷贝.

使用std::vector<>std::vector<>时,只需要读取文件,就可以将内核页面缓存中的数据复制到不需要的位置.

此外,当std::vector<>向其传递两个输入迭代器时,在读取时会增加其缓冲区,因为它不知道文件大小.std::vector<>首先调整大小到文件大小时,它会不必要地将其内容清零,因为无论如何它都会被文件数据覆盖.这两种方法在空间和时间方面都是次优的.