我有两个数据集的采样数据.loc
描述地理位置,spe
包含发现的物种.不幸的是,采样站由两个因素(cruise
和station
)描述,因此我需要为两个数据集构建唯一标识符
>loc
cruise station lon lat
1 TY1 A1 53.8073 6.7836
2 TY1 3 53.7757 6.7009
3 AZ7 A1 53.7764 6.6758
Run Code Online (Sandbox Code Playgroud)
和
>spe
cruise station species abundance
1 TY1 A1 Ensis ensis 100
2 TY1 A1 Magelona 5
3 TY1 A1 Nemertea 17
4 TY1 3 Magelona 8
5 TY1 3 Ophelia 1200
6 AZ7 A1 Ophelia 950
7 AZ7 A1 Ensis ensis 89
8 AZ7 A1 Spio 1
Run Code Online (Sandbox Code Playgroud)
我需要的是添加一个唯一的标识符ID
这样 …
我的数据框如下所示:
> df
id u.1t u.2 v.1 v.2
1 A 1 NA 5 NA
2 A 2 NA 4 6
3 A 1 4 5 NA
4 B 10 13 40 NA
5 B 10 12 42 NA
6 B 10 NA 41 NA
Run Code Online (Sandbox Code Playgroud)
我想分别知道id
这个u.*
和v.*
列的特定方法,如下所示:
> mean
id u.mean v.mean
1 A 2 5
2 B 11 41
Run Code Online (Sandbox Code Playgroud)
这是数据
df<-data.frame(id=c("A","A","A","B","B","B"),u.1t=c(1,2,1,10,10,10),u.2=c(NA,NA,4,13,12,NA),v.1=c(5,4,5,40,42,41),v.2=c(NA,6,NA,NA,NA,NA))
Run Code Online (Sandbox Code Playgroud)
很明显,通过引入NA,总体平均值不等于行或列均值的平均值,这是这里的问题.
我认为这是一份工作by
,但事实证明除了列式操作我不能by
做任何事情?
非常感谢帮助 - 谢谢
r ×2