如何读取R中的大数据集的子集？

Question

我有一个大约有200万行的数据集,因此如果不读取整个数据集,我想读取数据集的子集.我的数据集中包含一个日期列,因此我只想在不读取整个数据集的情况下读取日期范围之间的数据集,因为这将耗费时间并浪费内存.所以如何完成它可以有人指导我这个？

Answer 1

使用skip=参数read.table

read.table("file.txt",skip= ,nrows= )

无论是skip=和nrows=参加行标志号码,只是=后添加.

在nrows=你有多深的范围时,要导入的文件定义.

另外,请参阅我的一个问题:

它在某种程度上涉及同一主题.

其他可能的办法可能是使用grep()在skip=

read.table(...,skip=grep("2005-12-31", readLines("File.txt")),nrows=365)

这一行的作用是跳过它直到找到描述grep()的行并在那之后读取行.在nrow=读取365行后,将停止读取(这样,如果一行等于一个日期,则读取一年的日期).

这看起来有点复杂,但这是我知道如何解决这个问题的唯一方法.