小编Pau*_*laF的帖子

使用linux命令随机选择列

我有一个包含 606,347列的平面文件 (.txt)，我想提取 50,000 个随机列，第一列除外，第一列是样本识别。我如何使用 Linux 命令来做到这一点？我的文件看起来像：

ID  SNP1    SNP2    SNP3
1   0   0   2
2   1   0   2
3   2   0   1
4   1   1   2
5   2   1   0

Run Code Online (Sandbox Code Playgroud)

它是由 TAB 分隔的。

非常感谢。

干杯，

宝拉。

unix linux bash shell

Pau*_*laF

2016 03-24

5
推荐指数

1
解决办法

1143
查看次数

基于R中的函数创建矩阵

我有一个名为A的对称矩阵(维度:12,000 X 12,000),我想根据公式创建另一个矩阵,这取决于元素的位置.解释:我想使用以下公式创建D矩阵(基于A的值):

Dij = 1 - (aij/sqrt(aii*ajj))

Run Code Online (Sandbox Code Playgroud)

A的一个小例子是:

A = matrix(c(1,0.5,0.4,0.3,0.2,0.5,1.1,0.5,0.4,0.3,0.4,0.5,1.2,0.5,0.6,0.3,0.4,0.5,1,0.2,0.2,0.3,0.6,0.2,1.2),ncol=5,nrow=5, byrow=T)

Run Code Online (Sandbox Code Playgroud)

由于我有一个巨大的矩阵,最好的方法是什么？

r matrix dataframe

Pau*_*laF

2015 06-18

3
推荐指数

1
解决办法

114
查看次数

来自与变量匹配的另一列的查找值

我有一个看起来像这样的数据框:

animal_id   trait_id    sire_id dam_id
    1         25.05        0       0
    2         -46.3        1       2
    3          41.6        1       2
    4         -42.76       3       4
    5         -10.99       3       4
    6         -49.81       5       4

Run Code Online (Sandbox Code Playgroud)

我想创建另一个变量,其中包含每个"sire_id"和"dam_id"的"trait_id"估计值.

所有公牛(sire_id)和水坝(dam_id)也存在于animal_id列中.所以我想要做的是在trait_id中查找它们的测量值,并在新变量中重复这个变量.

我想要的结果是:

animal_id   trait_id    sire_id trait_sire  dam_id  trait_dam
     1       25.05         0        NA        0        NA
     2       -46.3         1       25.05      2       -46.3
     3       41.6          1       25.05      2       -46.3
     4      -42.76         3       41.6       4       -42.76
     5      -10.99         3       41.6       4       -42.76
     6      -49.81         5      -10.99      4       -42.76

Run Code Online (Sandbox Code Playgroud)

任何建议将不胜感激.

lookup loops r dataframe

Pau*_*laF

2017 04-12

3
推荐指数

2
解决办法

341
查看次数

Proc GLM(SAS)使用R.

我需要测试我应该在我的模型中包含哪些影响用于奶牛的遗传评估.在SAS中我会使用proc GLM.SAS代码将是:

data paula1; set paula0;
proc glm;
class year herd season;
model milk= year herd season age age*age;
run;

Run Code Online (Sandbox Code Playgroud)

我的R代码是:

model1 = glm(milk ~ factor(year) + factor(herd) + factor(season) + age + I(age^2), data=paula1)
anova(model1)

Run Code Online (Sandbox Code Playgroud)

我怀疑存在错误,因为即使我包含与特征无关的其他效果,所有效果都具有统计意义.我没有SAS许可证来比较结果.我的代码是否正确？R中的glm是否表示3型平方和(对于SAS中提供的不平衡数据)？在这种情况下使用lm有什么区别吗？提前致谢.保

r sas

Pau*_*laF

lucky-day

2
推荐指数

1
解决办法

4000
查看次数

在Y中将YYYYMMDD转换为mm/dd/yyyy格式

我在R中有一个数据框,它有两个日期变量,我需要计算它们之间的天数差异.但是,它们的格式为YYYYMMDD.如何将其更改为R中可读的日期格式？

r date dataframe

Pau*_*laF

2017 06-22

0
推荐指数

1
解决办法

3689
查看次数

标签统计

r ×4

dataframe ×3

bash ×1

date ×1

linux ×1

lookup ×1

loops ×1

matrix ×1

sas ×1

shell ×1

unix ×1

使用linux命令随机选择列

基于R中的函数创建矩阵

来自与变量匹配的另一列的查找值

Proc GLM(SAS)使用R.

在Y中将YYYYMMDD转换为mm/dd/yyyy格式

标签 统计

小编Pau_laF的帖子

标签统计