如何读取R中的大数据集的子集?

Zee*_*ikh 12 r read.table

我有一个大约有200万行的数据集,因此如果不读取整个数据集,我想读取数据集的子集.我的数据集中包含一个日期列,因此我只想在不读取整个数据集的情况下读取日期范围之间的数据集,因为这将耗费时间并浪费内存.所以如何完成它可以有人指导我这个?

Oll*_*i J 10

使用skip=参数read.table

read.table("file.txt",skip= ,nrows= )
Run Code Online (Sandbox Code Playgroud)

无论是skip=nrows=参加行标志号码,只是=后添加.

nrows=你有多深的范围时,要导入的文件定义.

如果您还没有这样做,我建议您阅读https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.table.html.

另外,请参阅我的一个问题:

R - 在特定行之后从.txt文件中读取行

它在某种程度上涉及同一主题.

其他可能的办法可能是使用grep()skip=

read.table(...,skip=grep("2005-12-31", readLines("File.txt")),nrows=365)
Run Code Online (Sandbox Code Playgroud)

这一行的作用是跳过它直到找到描述grep()的行并在那之后读取行.在nrow=读取365行后,将停止读取(这样,如果一行等于一个日期,则读取一年的日期).

这看起来有点复杂,但这是我知道如何解决这个问题的唯一方法.