R使用fread colClasses或跳过参数来读取没有列标题的csv

Question

R使用fread colClasses或跳过参数来读取没有列标题的csv

h.l*_*l.m 8 r fread data.table import-csv

我想能够跳过被读成R经由列data.table的fread在v1.8.9功能.但我正在阅读的csv,没有列标题...这似乎是一个问题的fread ...有没有办法只指定我不想要特定的列？

是否更好地预先分配一个列名,然后让它读取它以便可以跳过它？

举个例子......

我从以下URL下载了数据

http://www.truefx.com/dev/data/2013/MAY-2013/AUDUSD-2013-05.zip

拉开它......

并使用fread将csv读入R并且它与csv扩展名具有几乎相同的文件名.

system.time(pp <- fread("AUDUSD-2013-05.csv",sep=","))
  user  system elapsed 
16.427   0.257  16.682 

head(pp)
       V1                    V2      V3      V4
1: AUD/USD 20130501 00:00:04.728 1.03693 1.03721
2: AUD/USD 20130501 00:00:21.540 1.03695 1.03721
3: AUD/USD 20130501 00:00:33.789 1.03694 1.03721
4: AUD/USD 20130501 00:00:37.499 1.03692 1.03724
5: AUD/USD 20130501 00:00:37.524 1.03697 1.03719
6: AUD/USD 20130501 00:00:39.789 1.03697 1.03717

str(pp)
Classes ‘data.table’ and 'data.frame':  4060762 obs. of  4 variables:
$ V1: chr  "AUD/USD" "AUD/USD" "AUD/USD" "AUD/USD" ...
$ V2: chr  "20130501 00:00:04.728" "20130501 00:00:21.540" "20130501 00:00:33.789" "20130501 00:00:37.499" ...
$ V3: num  1.04 1.04 1.04 1.04 1.04 ...
$ V4: num  1.04 1.04 1.04 1.04 1.04 ...
- attr(*, ".internal.selfref")=<externalptr>

Run Code Online (Sandbox Code Playgroud)

我尝试使用新的(ish)colClasses或跳过参数来忽略第一列完全相同的事实......并且是不必要的.

但做:

pp1 <- fread("AUDUSD-2013-05.csv",sep=",",skip=1)

Run Code Online (Sandbox Code Playgroud)

不会省略第一列的读数

并使用colClasses导致以下错误

pp1 <- fread("AUDUSD-2013-05.csv",sep=",",colClasses=list(NULL,"character","numeric","numeric"))

Error in fread("AUDUSD-2013-05.csv", sep = ",", colClasses = list(NULL,  : 
 colClasses is type list but has no names

Run Code Online (Sandbox Code Playgroud)

其他尝试包括在内

pp1 <- fread("AUDUSD-2013-06.csv",sep=",", colClasses=c(V1=NULL,V2="character",V3="numeric",V4="numeric"))
str(pp1)
Classes ‘data.table’ and 'data.frame':  5524877 obs. of  4 variables:
 $ V1: chr  "AUD/USD" "AUD/USD" "AUD/USD" "AUD/USD" ...
 $ V2: chr  "20130603 00:00:00.290" "20130603 00:00:00.291" "20130603 00:00:00.292" "20130603 00:00:03.014" ...
 $ V3: num  0.962 0.962 0.962 0.962 0.962 ...
 $ V4: num  0.962 0.962 0.962 0.962 0.962 ...
 - attr(*, ".internal.selfref")=<externalptr>

Run Code Online (Sandbox Code Playgroud)

即几乎完全相同,如果我没有使用colClasses ...

是否有任何建议可以通过省略第一列来加快数据的读取？

也许有点问,但是有可能直接读取zip文件而不是首先解压缩然后在csv中读取吗？

哦,如果不清楚我正在使用data.table v1.8.9

一如既往,感谢您提前提供的所有帮助,努力和建议.

Answer 1

SCa*_*lan 13

我认为你正在寻找的论点是drop.尝试:

require(data.table)  # 1.9.2+
pp <- fread("AUDUSD-2013-05.csv", drop = 1)

Run Code Online (Sandbox Code Playgroud)

请注意,您可以drop按名称或职位.

fread("AUDUSD-2013-05.csv", drop = c("columThree","anotherColumnName"))

fread("AUDUSD-2013-05.csv", drop = 10:15)  # read all columns other than 10:15

Run Code Online (Sandbox Code Playgroud)

你也可以select通过名字或职位.

fread("AUDUSD-2013-05.csv", select = 10:15)  # read only columns 10:15

fread("AUDUSD-2013-05.csv", select = c("columnA","columnName2"))

Run Code Online (Sandbox Code Playgroud)

这些论点被添加到v1.9.2(2014年2月发布到CRAN)并记录在案?fread.您需要升级才能使用它们.

归档时间：	12 年，7 月前
查看次数：	7744 次
最近记录：	6 年，4 月前