我有一个包含 606,347列的平面文件 (.txt),我想提取 50,000 个随机列,第一列除外,第一列是样本识别。我如何使用 Linux 命令来做到这一点?我的文件看起来像:
ID SNP1 SNP2 SNP3
1 0 0 2
2 1 0 2
3 2 0 1
4 1 1 2
5 2 1 0
Run Code Online (Sandbox Code Playgroud)
它是由 TAB 分隔的。
非常感谢。
干杯,
宝拉。
我有一个名为A的对称矩阵(维度:12,000 X 12,000),我想根据公式创建另一个矩阵,这取决于元素的位置.解释:我想使用以下公式创建D矩阵(基于A的值):
Dij = 1 - (aij/sqrt(aii*ajj))
Run Code Online (Sandbox Code Playgroud)
A的一个小例子是:
A = matrix(c(1,0.5,0.4,0.3,0.2,0.5,1.1,0.5,0.4,0.3,0.4,0.5,1.2,0.5,0.6,0.3,0.4,0.5,1,0.2,0.2,0.3,0.6,0.2,1.2),ncol=5,nrow=5, byrow=T)
Run Code Online (Sandbox Code Playgroud)
由于我有一个巨大的矩阵,最好的方法是什么?
我有一个看起来像这样的数据框:
animal_id trait_id sire_id dam_id
1 25.05 0 0
2 -46.3 1 2
3 41.6 1 2
4 -42.76 3 4
5 -10.99 3 4
6 -49.81 5 4
Run Code Online (Sandbox Code Playgroud)
我想创建另一个变量,其中包含每个"sire_id"和"dam_id"的"trait_id"估计值.
所有公牛(sire_id)和水坝(dam_id)也存在于animal_id列中.所以我想要做的是在trait_id中查找它们的测量值,并在新变量中重复这个变量.
我想要的结果是:
animal_id trait_id sire_id trait_sire dam_id trait_dam
1 25.05 0 NA 0 NA
2 -46.3 1 25.05 2 -46.3
3 41.6 1 25.05 2 -46.3
4 -42.76 3 41.6 4 -42.76
5 -10.99 3 41.6 4 -42.76
6 -49.81 5 -10.99 4 -42.76
Run Code Online (Sandbox Code Playgroud)
任何建议将不胜感激.
我需要测试我应该在我的模型中包含哪些影响用于奶牛的遗传评估.在SAS中我会使用proc GLM.SAS代码将是:
data paula1; set paula0;
proc glm;
class year herd season;
model milk= year herd season age age*age;
run;
Run Code Online (Sandbox Code Playgroud)
我的R代码是:
model1 = glm(milk ~ factor(year) + factor(herd) + factor(season) + age + I(age^2), data=paula1)
anova(model1)
Run Code Online (Sandbox Code Playgroud)
我怀疑存在错误,因为即使我包含与特征无关的其他效果,所有效果都具有统计意义.我没有SAS许可证来比较结果.我的代码是否正确?R中的glm是否表示3型平方和(对于SAS中提供的不平衡数据)?在这种情况下使用lm有什么区别吗?提前致谢.保
我在R中有一个数据框,它有两个日期变量,我需要计算它们之间的天数差异.但是,它们的格式为YYYYMMDD.如何将其更改为R中可读的日期格式?