当我在 R 中以制表符分隔格式加载数据文件时,收到以下错误消息:
Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : line 3 did not have 5 elements
Run Code Online (Sandbox Code Playgroud)
这是我的数据:
KEY ID code1 code2 name
1 sadsa 32423 344 ffsadsa
2 vdffsfs 21344 234 fsadfgg
3 3e4dsa 21321 #N/A #N/A
4 dcxzc 23421 #N/A #N/A
5 xzzcc 21223 124 erfsacf
6 sdas 21321 464 fsadfsa
7 assdad 32132 455 fsadfda
Run Code Online (Sandbox Code Playgroud)
我可以看到该错误是由我的数据中的“#N/A”值引起的。我尝试过 read.table 选项,例如 na.strings 或 comment.char = "#" 但它仍然不起作用。
在 R …
我有一个这样的文本数据文件(各个类别 [A,B,C] 有多行):
A=1,2,3,6,
7,9
10
B=3,4,5
C=5,7,8,10,11,
13,14
Run Code Online (Sandbox Code Playgroud)
当我加载到 R 时,它变成了一个有 6 个 obs 的数据框。和 1 个变量
df <- read.delim("file.text",header = FALSE)
v1
1 A=1,2,3,6,
2 7,9
3 10
4 B=3,4,5
5 C=5,7,8,10,11,
6 13,14
Run Code Online (Sandbox Code Playgroud)
如何更改为这种格式?
A B C
1 A
2 A
3 A B
4 B
5 B C
6 A
7 A C
8 C
9 A
10 A C
11 C
13 C
14 C
Run Code Online (Sandbox Code Playgroud)
谢谢!
我需要进行数据验证,以确定CodeA1,CodeA2和Code A3(列)中是否有任何重复项.
CodeA1 CodeA2 CodeA3
1 1 NA 5
2 3 1 3
3 8 3 3
4 3 NA NA
5 4 1 2
6 1 8 3
Run Code Online (Sandbox Code Playgroud)
所有列中的行(CodeA1,CodeA2,CodeA3)应该是唯一的.
有人可以帮R吗?
我想确定所有行的重复项,并得到如下结果
CodeA1 CodeA2 CodeA3 Duplicate
1 1 NA 5 No
2 3 1 3 Yes
3 8 3 3 Yes
4 3 NA NA No
5 4 1 2 No
6 1 8 3 No
Run Code Online (Sandbox Code Playgroud)