我正在尝试获取R中变量之间的Pearson相关系数。这是变量的散点图:
ggplot(results_summary, aes(x =D_in, y = D_ex)) + geom_point(col=ifelse(results_summary$FDR < 0.05, ifelse(results_summary$logF>0, "red", "green" ), "black"))
Run Code Online (Sandbox Code Playgroud)
如您所见,变量之间的相关性很好,因此我期望相关系数很高。但是,当我尝试获得Pearson相关系数时,我得到的是NaN!
> cor(results_summary$D_in, results_summary$D_ex, method="spearman")
[1] 0.868079
> cor(results_summary$D_in, results_summary$D_ex, method="kendall")
[1] 0.6973086
> cor(results_summary$D_in, results_summary$D_ex, method="pearson")
[1] NaN
Run Code Online (Sandbox Code Playgroud)
我检查了我的数据是否包含任何NaN:
> nrow(subset(results_summary, is.nan(results_summary$D_ex)==TRUE))
[1] 0
> nrow(subset(results_summary, is.nan(results_summary$D_in)==TRUE))
[1] 0
> cor(results_summary$D_in, results_summary$D_ex, method="pearson", use="complete.obs")
[1] NaN
Run Code Online (Sandbox Code Playgroud)
但是似乎这不是产生NaN的原因。有人可以提供任何有关这里可能发生的情况的线索吗?
谢谢你的时间!
我有一个像这样的文件列表:
wgEncodeCaltechRnaSeqGm12878R1x75dFastqRep1.fastq.trim.tags.sam
wgEncodeCaltechRnaSeqGm12878R1x75dFastqRep2.fastq.trim.tags.sam
wgEncodeCshlLongRnaSeqGm12878CellPapFastqRd1Rep1.fastq.trim00.tags.sam
wgEncodeCshlLongRnaSeqGm12878CellPapFastqRd1Rep1.fastq.trim01.tags.sam
wgEncodeCshlLongRnaSeqGm12878CellPapFastqRd1Rep1.fastq.trim02.tags.sam
wgEncodeCshlLongRnaSeqGm12878CellPapFastqRd1Rep2.fastq.trim00.tags.sam
wgEncodeCshlLongRnaSeqGm12878CellPapFastqRd1Rep2.fastq.trim01.tags.sam
wgEncodeCshlLongRnaSeqGm12878CellPapFastqRd1Rep2.fastq.trim02.tags.sam
wgEncodeCshlLongRnaSeqGm12878CellPapFastqRd2Rep1.fastq.trim00.tags.sam
wgEncodeCshlLongRnaSeqGm12878CellPapFastqRd2Rep1.fastq.trim01.tags.sam
Run Code Online (Sandbox Code Playgroud)
我想从文件名中删除Rd1,Rd2和.sam stings.使用以下bash脚本,我可以使用两个命令删除Rd1,Rd2和.sam字符串....
for i in $(ls)
do
echo "${i/Rd?/}"
echo "${i/.sam/}"
done
Run Code Online (Sandbox Code Playgroud)
但我想知道如何一步完成两次换人你知道怎么做吗?
谢谢你的时间!
在我写的代码中,我需要交叉两个水平列表,如:
chr1 aatt
chr8 tagg
chr11 aaaa
chr7 gtag
Run Code Online (Sandbox Code Playgroud)
chr8 tagt
chr1 tttt
chr7 gtag
chr11 aaaa
chr9 atat
#This lists are compounded by one str per line, wich it has a "/t" in the middle.
#Also note that are in different order
Run Code Online (Sandbox Code Playgroud)
我怎样才能得到这两个列表的交集?
chr7 gtag
chr11 aaaa
Run Code Online (Sandbox Code Playgroud)
我也可以生成每行两个字符串的列表,如下所示:\
('chr1', 'aatt')
('chr8', 'tagg')
('chr11', 'aaaa')
('chr7', 'gtag')
Run Code Online (Sandbox Code Playgroud)
('chr8', 'tagt')
('chr1', 'tttt')
('chr7', 'gtag')
('chr11','aaaa')
('chr9', 'atat')
Run Code Online (Sandbox Code Playgroud)
在这种情况下,重要的是必须将两列视为一列
谢谢你的时间!
例如......如果我有这样的文件:
A 16 chr11 36595888
A 0 chr1 155517200
B 16 chr1 43227072
C 0 chr20 55648508
D 0 chr2 52375454
D 16 chr2 73574214
D 0 chr3 93549403
E 16 chr3 3315671
Run Code Online (Sandbox Code Playgroud)
我只需要打印具有唯一第一列的行:
B 16 chr1 43227072
C 0 chr20 55648508
E 16 chr3 3315671
Run Code Online (Sandbox Code Playgroud)
它类似于awk '!_[$1]++',但我想删除所有具有非唯一拳头场的线.
最好使用Bash和python解决方案.
我有一组文件夹:
$ ls -d _clip*
_clip10.trim _clip12.trim _clip14.trim _clip16.trim _clip2.trim _clip4.trim _clip6.trim _clip8.trim
_clip11.trim _clip13.trim _clip15.trim _clip1.trim _clip3.trim _clip5.trim _clip7.trim _clip9.trim
Run Code Online (Sandbox Code Playgroud)
我需要从选择拖批文件夹,一个_clip1.trim到_clip6.trim:
$ ls -d _clip[1-6].trim
_clip1.trim _clip2.trim _clip3.trim _clip4.trim _clip5.trim _clip6.trim
Run Code Online (Sandbox Code Playgroud)
而从其他的_clip7.trim到_clip16.trim,但是当我尝试ls -d _clip[7-16].trim只列出_clip6.trim上市.
我需要了解如何在常规表达式中使用数字interbals.谢谢你的时间!
bash ×3
python ×2
intersection ×1
list ×1
pearson ×1
r ×1
regex ×1
statistics ×1
string ×1
unique ×1