拆分字符串行并创建数据框

Question

拆分字符串行并创建数据框

我从一个文本文件中读取了一个小数据readLines.该文件有类似的字符#,我认为这是read.table无法读取它的原因.这是输入的前五行:

files<-c("\trfinal\t\t", "eq1\t\t\t", "0.ster6\t1.00\t(1.00,1.00)\t.", 
     "1.ster6\t0.65\t(0.47,0.88)\t0.006", "0.parkinson\t1.00\t(1.00,1.00)\t.", 
     "1.ster6#0.parkinson\t1.00\t(1.00,1.00)\t.")

Run Code Online (Sandbox Code Playgroud)

\t表示字符串之间的空格.我想拆分这些文本行并将它们放入一个4列网格(数据框).

我试过strsplit(files, "[\\t]")但它并没有真正做到这一点.有帮助吗？

Answer 1

mus*_*_ut 8

您可以禁用的治疗#作为comment.char中read.table:

read.table(text=files, sep='\t', comment.char="")
#                    V1     V2          V3    V4
# 1                     rfinal
# 2                 eq1
# 3             0.ster6   1.00 (1.00,1.00)     .
# 4             1.ster6   0.65 (0.47,0.88) 0.006
# 5         0.parkinson   1.00 (1.00,1.00)     .
# 6 1.ster6#0.parkinson   1.00 (1.00,1.00)     .

Run Code Online (Sandbox Code Playgroud)

Answer 2

A5C*_*2T1 7

如果"\t"只表示制表符分隔符,请尝试read.delim:

read.delim(text = files)
#                     X rfinal         X.1   X.2
# 1                 eq1     NA                  
# 2             0.ster6   1.00 (1.00,1.00)     .
# 3             1.ster6   0.65 (0.47,0.88) 0.006
# 4         0.parkinson   1.00 (1.00,1.00)     .
# 5 1.ster6#0.parkinson   1.00 (1.00,1.00)     .

Run Code Online (Sandbox Code Playgroud)

你也可以考虑一下这个stringi包.在这里,我将其"\t"视为固定模式:

library(stringi)
stri_split_fixed(files, "\t", simplify = TRUE)
#      [,1]                  [,2]     [,3]          [,4]   
# [1,] ""                    "rfinal" ""            ""     
# [2,] "eq1"                 ""       ""            ""     
# [3,] "0.ster6"             "1.00"   "(1.00,1.00)" "."    
# [4,] "1.ster6"             "0.65"   "(0.47,0.88)" "0.006"
# [5,] "0.parkinson"         "1.00"   "(1.00,1.00)" "."    
# [6,] "1.ster6#0.parkinson" "1.00"   "(1.00,1.00)" "."

Run Code Online (Sandbox Code Playgroud)

但总的来说,目前还不清楚应该将什么作为标题处理等等,最好实现@musically_ut关于comment.char在源头使用和尝试解决问题的建议.

归档时间：	11 年，1 月前
查看次数：	119 次
最近记录：	11 年，1 月前