小编Pau*_*laF的帖子

使用linux命令随机选择列

我有一个包含 606,347的平面文件 (.txt),我想提取 50,000 个随机列,第一列除外,第一列是样本识别。我如何使用 Linux 命令来做到这一点?我的文件看起来像:

ID  SNP1    SNP2    SNP3
1   0   0   2
2   1   0   2
3   2   0   1
4   1   1   2
5   2   1   0
Run Code Online (Sandbox Code Playgroud)

它是由 TAB 分隔的。

非常感谢。

干杯,

宝拉。

unix linux bash shell

5
推荐指数
1
解决办法
1143
查看次数

基于R中的函数创建矩阵

我有一个名为A的对称矩阵(维度:12,000 X 12,000),我想根据公式创建另一个矩阵,这取决于元素的位置.解释:我想使用以下公式创建D矩阵(基于A的值):

Dij = 1 - (aij/sqrt(aii*ajj))
Run Code Online (Sandbox Code Playgroud)

A的一个小例子是:

A = matrix(c(1,0.5,0.4,0.3,0.2,0.5,1.1,0.5,0.4,0.3,0.4,0.5,1.2,0.5,0.6,0.3,0.4,0.5,1,0.2,0.2,0.3,0.6,0.2,1.2),ncol=5,nrow=5, byrow=T)
Run Code Online (Sandbox Code Playgroud)

由于我有一个巨大的矩阵,最好的方法是什么?

r matrix dataframe

3
推荐指数
1
解决办法
114
查看次数

来自与变量匹配的另一列的查找值

我有一个看起来像这样的数据框:

animal_id   trait_id    sire_id dam_id
    1         25.05        0       0
    2         -46.3        1       2
    3          41.6        1       2
    4         -42.76       3       4
    5         -10.99       3       4
    6         -49.81       5       4
Run Code Online (Sandbox Code Playgroud)

我想创建另一个变量,其中包含每个"sire_id"和"dam_id"的"trait_id"估计值.

所有公牛(sire_id)和水坝(dam_id)也存在于animal_id列中.所以我想要做的是在trait_id中查找它们的测量值,并在新变量中重复这个变量.

我想要的结果是:

animal_id   trait_id    sire_id trait_sire  dam_id  trait_dam
     1       25.05         0        NA        0        NA
     2       -46.3         1       25.05      2       -46.3
     3       41.6          1       25.05      2       -46.3
     4      -42.76         3       41.6       4       -42.76
     5      -10.99         3       41.6       4       -42.76
     6      -49.81         5      -10.99      4       -42.76
Run Code Online (Sandbox Code Playgroud)

任何建议将不胜感激.

lookup loops r dataframe

3
推荐指数
2
解决办法
341
查看次数

Proc GLM(SAS)使用R.

我需要测试我应该在我的模型中包含哪些影响用于奶牛的遗传评估.在SAS中我会使用proc GLM.SAS代码将是:

data paula1; set paula0;
proc glm;
class year herd season;
model milk= year herd season age age*age;
run;
Run Code Online (Sandbox Code Playgroud)

我的R代码是:

model1 = glm(milk ~ factor(year) + factor(herd) + factor(season) + age + I(age^2), data=paula1)
anova(model1)
Run Code Online (Sandbox Code Playgroud)

我怀疑存在错误,因为即使我包含与特征无关的其他效果,所有效果都具有统计意义.我没有SAS许可证来比较结果.我的代码是否正确?R中的glm是否表示3型平方和(对于SAS中提供的不平衡数据)?在这种情况下使用lm有什么区别吗?提前致谢.保

r sas

2
推荐指数
1
解决办法
4000
查看次数

在Y中将YYYYMMDD转换为mm/dd/yyyy格式

我在R中有一个数据框,它有两个日期变量,我需要计算它们之间的天数差异.但是,它们的格式为YYYYMMDD.如何将其更改为R中可读的日期格式?

r date dataframe

0
推荐指数
1
解决办法
3689
查看次数

标签 统计

r ×4

dataframe ×3

bash ×1

date ×1

linux ×1

lookup ×1

loops ×1

matrix ×1

sas ×1

shell ×1

unix ×1