单件读取CSV文件的策略？

这种方法的优点是连接.如果省略此步骤,可能会减慢一些速度.通过手动打开连接,您基本上打开数据集,并且在调用close函数之前不要关闭它.这意味着当您遍历数据集时,您将永远不会失去您的位置.想象一下,你有一个1e7行的数据集.还想象一下,你想要一次加载一行1e5行.由于我们打开连接,我们通过运行得到第一个1e5行read.csv(con, nrow=1e5,...),然后得到我们运行的第二个块read.csv(con, nrow=1e5,...),依此类推......

如果我们不使用连接,我们将以相同的方式获得第一个块read.csv("file.csv", nrow=1e5,...),但是对于我们需要的下一个块read.csv("file.csv", skip = 1e5, nrow=2e5,...).显然这是低效的.我们必须再次找到1e5 + 1行,尽管事实上我们只读了1e5行.

最后,data.table::fread很棒.但你不能通过它连接.所以这种方法不起作用.

我希望这可以帮助别人.

UPDATE

人们继续赞同这篇文章,所以我想我会再添加一个简短的想法.新的readr::read_csv,read.csv可以通过连接.然而,它被宣传为大约快10倍.

data.table的fread计划在下一个稳定版本中支持连接,更多细节见[data.table#561](https://github.com/Rdatatable/data.table/issues/561) (2认同)
请注意,`iotools`包的`read*`函数可以提供连接. (2认同)

Answer 2

G. *_*eck 11

您可以使用RSQLite将其读入数据库,然后使用sql语句获取一部分.

如果只需要一个部分,那么read.csv.sql在sqldf包中将数据读入sqlite数据库.首先,它为您创建数据库,并且数据不通过R,因此R的限制将不适用(在这种情况下主要是RAM).其次,在将数据加载到数据库之后,sqldf将指定的sql语句的输出读入R并最终销毁数据库.根据它对数据的处理速度,如果你有几个,你可能只需重复每个部分的整个过程.

只有一行代码完成了所有三个步骤,因此只需尝试它就可以了.

DF <- read.csv.sql("myfile.csv", sql=..., ...other args...)

Run Code Online (Sandbox Code Playgroud)

请参阅?read.csv.sql和?sqldf 以及sqldf主页.

归档时间：	13 年，9 月前
查看次数：	19433 次
最近记录：	7 年，5 月前