我在初学者SAS课程中,我们只需要显示PROC CONTENTS输出中显示数据集中变量的部分.例如,当你这样做
proc contents data=whas.heart3;
run;
Run Code Online (Sandbox Code Playgroud)
输出是3个表.第3个表的标题是:
变量和属性的字母列表
我需要弄清楚如何修改上面的代码只显示第3个表.
我正在尝试计算 Rosalind 问题的 DNA 序列的 GC 含量(以%为单位)。我有以下代码,但它返回 0,或者仅返回 G 的数量或单独的 C 的数量(无百分比)。
x = raw_input("Sequence?:").upper()
total = len(x)
c = x.count("C")
g = x.count("G")
gc_total = g+c
gc_content = gc_total/total
print gc_content
Run Code Online (Sandbox Code Playgroud)
我也尝试过这个,只是为了获取 G 和 C 的计数,而不是百分比,但它只是返回整个字符串的计数:
x = raw_input("Sequence?:").upper()
def gc(n):
count = 0
for i in n:
if i == "C" or "G":
count = count + 1
else:
count = count
return count
gc(x)
Run Code Online (Sandbox Code Playgroud)
编辑:我修复了第一个代码示例中 print 语句中的拼写错误。这不是问题,我只是粘贴了错误的代码片段(有很多尝试......)
我有2个数据集.第一个数据集的p值为0.5 - 0.001,以及满足该p值的相应阈值.例如,对于0.05,值为13.任何大于13的值都具有<0.05的p值.这个数据集包含了我感兴趣的所有阈值.像这样:
V1 V2
1 0.500 10
2 0.200 11
3 0.100 12
4 0.050 13
5 0.010 14
6 0.001 15
Run Code Online (Sandbox Code Playgroud)
第二个数据集只是一个很长的值列表.我需要编写一个R脚本来计算此集合中超过每个阈值的值的数量.例如,计算第二个数据集中超过13的值,因此p值<0.05,并在每个阈值之前执行此操作.
以下是第2个数据集的前15个值(总共1000个):
1 11.100816
2 8.779858
3 10.510090
4 9.503772
5 9.392222
6 10.285920
7 8.317523
8 10.007738
9 11.021283
10 9.964725
11 9.081947
12 11.253643
13 10.896120
14 10.272814
15 10.282408
Run Code Online (Sandbox Code Playgroud)