Apache Commons CSV 框架是否提供内存高效的增量/顺序模式来读取大文件？

Question

Apache Commons CSV项目非常适合解析逗号分隔值、制表符分隔数据和类似的数据格式。

我的印象是，该工具完全读取文件，并将生成的行对象保存在内存中。但我不确定，我找不到有关此行为的任何文档。

对于解析非常大的数据，我应该进行增量读取，一次一行，或者一次可能相对较少的行数，以避免压倒性的内存限制。

仅就内存使用方面而言，这里的想法就像 XML 的 SAX 解析器如何增量读取以最大限度地减少 RAM 的使用，而 DOM 样式的 XML 解析器则将文档完全读入内存以提供树遍历。

问题：

Answer 1

我的印象是，该工具完全读取文件，并将生成的行对象保存在内存中

不会。内存的使用取决于您选择与CSVParser对象交互的方式。

JavadocCSVParser在其部分解析记录与解析到内存中明确解决了这个问题，但要注意：

根据输入的不同，解析到内存中可能会消耗大量系统资源。例如，如果您正在解析 150MB 的 CSV 数据文件，内容将被完全读入内存。

我快速浏览了源代码，实际上解析记录似乎是一次从输入源读取一大块，而不是一次全部读取。但你自己看看吧。

明智地解析记录

在解析记录部分，它展示了如何CSVRecord通过循环来一次Iterable增量地读取一个记录CSVParser。

CSVParser parser = CSVParser.parse(csvData, CSVFormat.RFC4180);
for (CSVRecord csvRecord : parser) {
    ...
}

相比之下，解析到内存部分显示了如何CSVParser::getRecords将所有对象一次性加载CSVRecord到内存中。List显然，非常大的输入文件可能会耗尽受限机器上的内存。

Reader in = new StringReader("a;b\nc;d");
CSVParser parser = new CSVParser(in, CSVFormat.EXCEL);
List<CSVRecord> list = parser.getRecords();