我从一个文本文件中读取了一个小数据readLines.该文件有类似的字符#,我认为这是read.table无法读取它的原因.这是输入的前五行:
files<-c("\trfinal\t\t", "eq1\t\t\t", "0.ster6\t1.00\t(1.00,1.00)\t.",
"1.ster6\t0.65\t(0.47,0.88)\t0.006", "0.parkinson\t1.00\t(1.00,1.00)\t.",
"1.ster6#0.parkinson\t1.00\t(1.00,1.00)\t.")
Run Code Online (Sandbox Code Playgroud)
\t表示字符串之间的空格.我想拆分这些文本行并将它们放入一个4列网格(数据框).
我试过strsplit(files, "[\\t]")但它并没有真正做到这一点.有帮助吗?
您可以禁用的治疗#作为comment.char中read.table:
read.table(text=files, sep='\t', comment.char="")
# V1 V2 V3 V4
# 1 rfinal
# 2 eq1
# 3 0.ster6 1.00 (1.00,1.00) .
# 4 1.ster6 0.65 (0.47,0.88) 0.006
# 5 0.parkinson 1.00 (1.00,1.00) .
# 6 1.ster6#0.parkinson 1.00 (1.00,1.00) .
Run Code Online (Sandbox Code Playgroud)
如果"\t"只表示制表符分隔符,请尝试read.delim:
read.delim(text = files)
# X rfinal X.1 X.2
# 1 eq1 NA
# 2 0.ster6 1.00 (1.00,1.00) .
# 3 1.ster6 0.65 (0.47,0.88) 0.006
# 4 0.parkinson 1.00 (1.00,1.00) .
# 5 1.ster6#0.parkinson 1.00 (1.00,1.00) .
Run Code Online (Sandbox Code Playgroud)
你也可以考虑一下这个stringi包.在这里,我将其"\t"视为固定模式:
library(stringi)
stri_split_fixed(files, "\t", simplify = TRUE)
# [,1] [,2] [,3] [,4]
# [1,] "" "rfinal" "" ""
# [2,] "eq1" "" "" ""
# [3,] "0.ster6" "1.00" "(1.00,1.00)" "."
# [4,] "1.ster6" "0.65" "(0.47,0.88)" "0.006"
# [5,] "0.parkinson" "1.00" "(1.00,1.00)" "."
# [6,] "1.ster6#0.parkinson" "1.00" "(1.00,1.00)" "."
Run Code Online (Sandbox Code Playgroud)
但总的来说,目前还不清楚应该将什么作为标题处理等等,最好实现@musically_ut关于comment.char在源头使用和尝试解决问题的建议.
| 归档时间: |
|
| 查看次数: |
119 次 |
| 最近记录: |