R 和 C 堆栈使用中允许的内存

Question

R 和 C 堆栈使用中允许的内存

我正在尝试将一个大文件（~5GB）读入 R 并处理数据。我可以成功读取整个 5GB 文件，但是当我应用我的处理时，麻烦就来了。我对 R 的内存基础知识不太了解，希望你们中的一些人能帮助我更好地理解。

这是我正在运行的示例

file = fread("file.txt") #file.txt is 5GB of unprocessed data
t.str <-strptime(file$time, "%m/%d/%Y %H:%M:%S"")#convert column to date class
month = as.numeric(format(t.str, "%m"))#create vector from file column
high = ifelse(file$age>70,1,0) #create vector from file column
#There are about ten more lines that operate on this file.

Run Code Online (Sandbox Code Playgroud)

fread 在读取文件方面做得很好。我在“文件”数据框架上运行的前三到四个操作有效。但是，在运行一定数量后，我收到一条错误消息：

C stack usage 19923892 is too close to the limit

Run Code Online (Sandbox Code Playgroud)

我很确定问题不是我正在运行的某个命令，因为它适用于较小的数据集。我读过一些关于堆栈是什么的内容，但这个警告对我来说并不完全有意义。这是否意味着 R 正在使用指针来遍历这些大向量，而我已经用完了指针空间（？）。我在这里读到了类似的问题：

错误：C 堆栈使用量太接近限制

一位用户建议增加 shell 中的堆栈大小。我尝试进一步研究这一点，但我不确定如何继续。这是他们的建议：

$ ulimit -s # print default
8192
$ R --slave -e 'Cstack_info()["size"]'
size 
8388608

Run Code Online (Sandbox Code Playgroud)

谁能帮助我理解这意味着什么，或者只是解释一下 R 中堆栈的使用？或者有谁知道有更好的方法来处理这些不超过堆栈使用的数据？我不确定如何为你们提供可重复的数据。

编辑以添加数据示例：

PersonID     time              Energy   Age
1301839    07/24/2013 07:15:00  0.13    68
1301521    07/24/2013 07:30:00  0.19    68
1301890    07/24/2013 07:45:00  0.10    68
1301890    07/24/2013 08:00:00  0.06    68
1307112    07/24/2013 08:15:00  0.01    68

Run Code Online (Sandbox Code Playgroud)

Answer 1

jen*_*tjr 3

抱歉，这确实不是答案，但我没有足够的积分来发表评论。您可以尝试分块读取和处理数据，或者查看 CRAN 任务视图高性能计算中的一些大内存包。您还可以在此处阅读有关内存使用情况的信息。

归档时间：	10 年，9 月前
查看次数：	8267 次
最近记录：	10 年，9 月前