简介:我有一个超过30 000个值的列表,范围从0到47,例如[0,0,0,0,...,1,1,1,1,...,2,2,2,2, ......,47等]是连续分布.
问题:基于我的分布,我想计算任何给定值的p值(看到更大值的概率).例如,正如您所见,0的p值接近1,较高的数值的p值趋于0.
我不知道我是否正确,但是为了确定概率,我认为我需要将我的数据拟合到最适合描述我的数据的理论分布.我认为需要某种拟合优度测试来确定最佳模型.
有没有办法在Python中实现这样的分析(Scipy或Numpy)?你能举个例子吗?
谢谢!
简介:我是生物信息学家.在我对所有人类基因(约20 000)进行的分析中,我搜索特定的短序列基序,以检查每个基因中出现这个基序的次数.
基因以四个字母(A,T,G,C)的线性序列"书写".例如:CGTAGGGGGTTTAC ......这是遗传密码的四个字母的字母表,就像每个细胞的秘密语言一样,它就是DNA实际存储信息的方式.
我怀疑在一些基因中频繁重复特定的短基序列(AGTGGAC)在细胞的特定生化过程中是至关重要的.由于基序本身非常短,因此用计算工具很难区分基因中的真实功能性实例和偶然看起来相似的实例.为了避免这个问题,我得到了所有基因的序列并连接成一个字符串并进行了改组.存储每个原始基因的长度.然后,对于每个原始序列长度,通过从连接序列中随机重复地挑选A或T或G或C并将其转移到随机序列来构建随机序列.以这种方式,得到的随机序列组具有相同的长度分布,以及总体A,T,G,C组成.然后我在这些随机序列中搜索主题.我将此程序置于1000次并对结果取平均值.
15000个不含给定基序的基因5000个基因含有1个基序3000个基因,含有2个基序1000个含有3个基序的基因... 1个含有6个基序的基因
因此,即使经过1000次真正遗传密码的随机化,也没有任何基因具有超过6个基序.但是在真正的遗传密码中,有一些基因含有超过20个基序的出现,这表明这些重复可能是有效的,并且它不可能通过纯粹的机会找到它们如此丰富.
问题:我想知道找到一个基因的可能性,假设我的分布中出现了20个基序.所以我想知道偶然发现这样一个基因的可能性.我想在Python中实现它,但我不知道如何.
我可以在Python中进行这样的分析吗?
任何帮助,将不胜感激.
我想知道是否可以阻止图例中的一个元素禁用/启用.假设我的传奇中有三个类别:'car1','car2','car3'.我想只显示/隐藏'car2'和'car3',而'car1'一直显示.
谢谢!
我有一个巨大的两元素元组列表,它们是段的坐标(开始,结束).以这种方式在下面的列表中
list = [ (1,4), (2, 3), (10, 20), (18, 45) ]
Run Code Online (Sandbox Code Playgroud)
有4个段的开始和结束本地化.我想删除重叠的段.我希望有一个像这样的列表:
list = [ (1,4), (10,20) ].
Run Code Online (Sandbox Code Playgroud)
我已经编写了一个函数,它将一对段作为输入,如果它们的坐标重叠则返回1:
def test_overlap(s1,e1,s2,e2):
if (s1 <= e2 and e1 >= s2) or (e1 >= s2 and s1 <= e2):
return 1
if (s1 <= s2 and e1 >= e2) or (s1 >= s2 and e1 <= e2):
return 1
Run Code Online (Sandbox Code Playgroud)
但我不知道如何在一个巨大的细分列表中有效地比较每一对.任何帮助将非常感谢!
python ×3
numpy ×2
scipy ×2
statistics ×2
algorithm ×1
comparison ×1
distribution ×1
highcharts ×1
legend ×1
list ×1
plot ×1
probability ×1