相关疑难解决方法(0)

write.csv用于大型data.table

我有一个data.table不是很大(2 GB)但由于某种原因write.csv需要很长时间才能写出来(我从未真正完成等待)并且似乎使用了大量的RAM来完成它.

我尝试将其转换data.table为a,data.frame尽管自从data.table扩展以来这不应该做任何事情data.frame.有没有人碰到这个？

更重要的是,如果你用Ctrl- 来阻止它C,R似乎没有给回记忆.

csv file-io r dataframe data.table

Ale*_*lex

2018 09-12

50
推荐指数

1
解决办法

3万
查看次数

如何快速将数据加载到R？

我有一些R脚本,我必须尽快在R中加载几个数据帧.这非常重要,因为读取数据是程序中最慢的部分.例如:从不同的数据帧绘图.我以sav(SPSS)格式获取数据,但我可以将其转换为建议的任何格式.不幸的是,合并数据帧不是一个选项.

什么是加载数据的最快方法？我在考虑以下几点:

第一次从sav转换为二进制R对象(Rdata),后来总是加载它,因为它看起来要快得多read.spss.
从sav转换为csv文件并从本主题中讨论的给定参数读取数据,
或者是否值得在localhost上设置MySQL后端并从中加载数据？会更快吗？如果是这样,我还可以保存attr变量的任何自定义值(例如来自Spss导入文件的variable.labels)吗？或者这应该在一个单独的表中完成？

欢迎任何其他想法.感谢您提前提出的每一个建议!

我根据你给出的答案在下面做了一个小实验,并且还添加了(24/01/2011)一个非常"hackish"但非常快速的解决方案,只从一个特殊的二进制文件中加载几个变量/列.后者似乎是我现在能想象的最快的方法,这就是为什么我编写了一个名为save的小包来处理这个功能(05/03/2011:ver.0.3).该套餐正在"重"开发,欢迎任何推荐!

在microbenchmark软件包的帮助下,我将很快发布一个具有准确基准测试结果的小插图.

performance benchmarking load r

dar*_*zig

2017 05-23

36
推荐指数

2
解决办法

2万
查看次数

将大型(3.9毫米数据库)数据框架导出到文本文件的最有效方法？

我在R中有一个相当大的数据框,我想导出到SPSS.这个文件首先导致我尝试将其导入R的几个小时的麻烦,但是我read.fwf()使用选项comment.char="%"(文件中没有出现的字符)成功使用了fill= TRUE(它是一个固定宽度的ASCII文件,缺少某些行)所有变量,导致错误消息).

无论如何,我的数据框目前包括3,900个观察值和48个变量(所有字符).我可以通过将其分成4 x 1毫米集合df2 <- df[1:1000000,]后跟write.table(df2)等等来快速地将其写入文件,但是如果没有计算机锁定并且需要硬重置才能恢复,则无法在一次扫描中写入整个文件.

在听到关于R多年来不适合大型数据集的轶事故事后,这是我第一次遇到这类问题.我想知道是否有其他方法(将文件低级"直接"转储到磁盘？)或者是否有一些我不知道的包可以有效地处理这种类型的大文件的输出？

export r export-to-csv

jan*_*ans

lucky-day

23
推荐指数

5
解决办法

2万
查看次数

将数据帧拆分为多个输出文件

我有大数据集(但例如以下是小数据集).我可以拆分数据帧然后我想输出到与用于拆分的lavel相对应的多个文本文件.

mydata <- data.frame (var1 = rep(c("k", "l", "c"), each = 5), var2 = rnorm(5), 
      var3 = rnorm(5))
mydata    
   var1       var2       var3
1     k  0.5406022  0.3654706
2     k -0.6356879 -0.9160001
3     k  0.2946240 -0.1072241
4     k -0.2609121  0.1036626
5     k  0.6206579  0.6111655
6     l  0.5406022  0.3654706
7     l -0.6356879 -0.9160001
8     l  0.2946240 -0.1072241
9     l -0.2609121  0.1036626
10    l  0.6206579  0.6111655
11    c  0.5406022  0.3654706
12    c -0.6356879 -0.9160001
13    c  0.2946240 -0.1072241
14    c -0.2609121  0.1036626
15    c …

Run Code Online (Sandbox Code Playgroud)

split r dataframe

jon*_*jon

2017 09-05

12
推荐指数

2
解决办法

2万
查看次数