相关疑难解决方法(0)

如何制作一个很好的R可重复的例子

在与同事讨论性能,教学,发送错误报告或在邮件列表上搜索指导时,以及在Stack Overflow上,通常会询问可重复的示例并始终提供帮助.

您有什么建议创建优秀示例的提示？如何以文本格式粘贴r中的数据结构？您还应该包含哪些其他信息？

在另外还有其他招数来使用dput(),dump()或structure()？你什么时候应该包括library()或require()声明？其中保留字应避免一个,此外c,df,data等？

怎样才能成为一位伟大的[R重复的例子？

r r-faq

And*_*rie

2018 08-20

2474
推荐指数

23
解决办法

28万
查看次数

修剪一个巨大的(3.5 GB)csv文件以读入R

所以我有一个数据文件(分号分隔),它有很多细节和不完整的行(导致Access和SQL扼流).它的县级数据集分为段,子段和子子段(总共约200个因子),为期40年.简而言之,它是巨大的,如果我试着简单地阅读它,它就不适应内存.

所以我的问题是,鉴于我想要所有的县,但只有一年(而且只是最高级别的细分......最终导致大约100,000行),最好的方法是什么汇总到R？

目前我正试图用Python来消除不相关的年份,通过一次读取和操作一行来绕过文件大小限制,但我更喜欢只有R的解决方案(CRAN包可以).有没有类似的方法在R中一次读取一个文件？

任何想法将不胜感激.

更新:

约束

需要使用我的机器,所以没有EC2实例
仅作为R-only.在这种情况下速度和资源不是问题...只要我的机器不爆炸...
如下所示,数据包含混合类型,我需要稍后进行操作

数据

数据为3.5GB,大约850万行和17列
几千行(~2k)格式错误,只有一列而不是17列

这些完全不重要,可以放弃

我只需要这个文件中的~10,000行(见下文)

数据示例:

County; State; Year; Quarter; Segment; Sub-Segment; Sub-Sub-Segment; GDP; ...
Ada County;NC;2009;4;FIRE;Financial;Banks;80.1; ...
Ada County;NC;2010;1;FIRE;Financial;Banks;82.5; ...
NC  [Malformed row]
[8.5 Mill rows]

Run Code Online (Sandbox Code Playgroud)

我想砍掉一些列并从40个可用年份中挑选两个(2009-2010从1980年到2020年),这样数据可以适用于R:

County; State; Year; Quarter; Segment; GDP; ...
Ada County;NC;2009;4;FIRE;80.1; ...
Ada County;NC;2010;1;FIRE;82.5; ...
[~200,000 rows]

Run Code Online (Sandbox Code Playgroud)

结果:

在修改了所有建议后,我认为JD和Marek建议的readLines效果最好.我给了Marek支票,因为他提供了一个示例实施.

我在这里为我的最终答案复制了一个略微改编的Marek实现版本,使用strsplit和cat来保留我想要的列.

还应当指出,这是MUCH比Python效率较低......在,巨蟒通过要吃掉5分钟3.5GB文件,而R取约60 ...但如果你只为R,那么这是罚单.

## Open a connection separately to hold the cursor position
file.in <- file('bad_data.txt', 'rt')
file.out <- file('chopped_data.txt', 'wt')
line …

Run Code Online (Sandbox Code Playgroud)

csv r

FTW*_*ynn

2014 11-13

86
推荐指数

7
解决办法

2万
查看次数

标签统计

r ×2

csv ×1

r-faq ×1

如何制作一个很好的R可重复的例子

修剪一个巨大的(3.5 GB)csv文件以读入R

标签 统计

标签统计