(R 错误)错误:cons 内存已耗尽(达到限制?)

Sar*_*ude 7 r bigdata

我正在处理大数据,我有一个 70GB 的 JSON 文件。我正在使用 jsonlite 库将文件加载到内存中。

我曾尝试使用 AWS EC2 x1.16large 机器(976 GB RAM)来执行此加载,但 R 因错误而中断: Error: cons memory exhausted (limit reached?) 加载 1,116,500 条记录后。考虑到我没有足够的 RAM,我尝试在具有 1.95TB RAM 的更大 EC2 机器上加载相同的 JSON。

加载 1,116,500 条记录后,该过程仍然中断。我使用的是 R 版本 3.1.1,我正在使用--vanilla选项执行它。所有其他设置均为默认设置。

这是代码:

library(jsonlite)
data <- jsonlite::stream_in(file('one.json'))
Run Code Online (Sandbox Code Playgroud)

有任何想法吗?

Kar*_* W. 0

有一种handler观点认为stream_in这可以处理大数据。因此,您可以将解析后的数据写入文件或过滤掉不需要的数据。