相关疑难解决方法(0)

在read.table/read.csv中为colClasses参数指定自定义日期格式

题:

有没有办法在read.table/read.csv中使用colClasses参数时指定Date格式?

(我意识到我可以在导入后进行转换,但是有很多像这样的日期列,在导入步骤中更容易实现)


例:

我有一个.csv格式的日期列%d/%m/%Y.

dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date"))
Run Code Online (Sandbox Code Playgroud)

这会导致转换错误.例如,15/07/2008成为0015-07-20.


可重现的代码:

data <- 
structure(list(func_loc = structure(c(1L, 2L, 3L, 3L, 3L, 3L, 
3L, 4L, 4L, 5L), .Label = c("3076WAG0003", "3076WAG0004", "3076WAG0007", 
"3076WAG0009", "3076WAG0010"), class = "factor"), order_type = structure(c(3L, 
3L, 1L, 1L, 1L, 1L, 2L, 2L, 3L, 1L), .Label = c("PM01", "PM02", 
"PM03"), class = "factor"), actual_finish = structure(c(4L, 6L, 
1L, 2L, 3L, 7L, 1L, 8L, 1L, 5L), .Label = c("", "11/03/2008", 
"14/08/2008", …
Run Code Online (Sandbox Code Playgroud)

r date read.table read.csv

101
推荐指数
3
解决办法
5万
查看次数

使用fread(和数据连接)将多个gzip文件读入单个data.table

我正在看这个帖子:' 追加多个大数据.表; 使用colClasses和fread进行自定义数据强制; 命名管道 '

我从"马特道尔"看到,这个恐惧" 可以接受非文件,如http地址和连接".我尝试过去通过gzip连接但没有成功.有没有人有一个例子显示如何使用fread读取gzip文件而无需在本地解压缩或使用管道?

现在,我解压缩网络文件在本地使用fread读取它们并将它们附加到已经使用rbindlist读取的其他数据.但是,我认为可能有更快的方法来实现这一目标.

另外,根据"James"的原始问题,如果提供了对gzip文件(或使用其他算法压缩的文件)的支持,那么打开和连接多个文件的提议会很棒.也许允许用户通过fread:

  1. 一系列gzip连接,或
  2. 一组文件和一些有关所提供文件类型的信息(或使用的连接类型),或
  3. 一组文件,并自动识别文件是否使用gzip或其他格式压缩,或
  4. 点1,2和3的组合

这可能已经存在,我希望有人可以通过我一些示例代码或指向正确的方向.我查看了data.frame R-Forge项目,并将其作为请求/错误提交,但我不能这样做(希望没有人冒犯,如果我在这里发布).

最后,是否有人知道在R中是否可以将文件读入RAM并将句柄传递给该虚拟文件,无需使用RAM磁盘等?

我希望有人可以帮助我提高代码的性能,目的是读取位于我们网络上的一千个gzip文件,这些文件可能有不同的数据列(即并非所有文件都有相同的列,但它们都有至少有一定程度的重叠).这些文件的总大小约为10Gb.

gzip r fread data.table

10
推荐指数
0
解决办法
2508
查看次数

标签 统计

r ×2

data.table ×1

date ×1

fread ×1

gzip ×1

read.csv ×1

read.table ×1