Mil*_*kov 73 storage bioinformatics genetics dna-sequence
我正在寻找存储单个人类基因组所需的存储量(MB,GB,TB等).我在维基百科上阅读了一些关于DNA,染色体,碱基对,基因的文章,并且有一些粗略的猜测,但在披露任何内容之前,我想看看其他人如何处理这个问题.
另一个问题是人类DNA中有多少原子,但这对于这个网站来说不合适.
我知道这将是一个近似值,所以我正在寻找能够存储任何人类DNA的最小值.
Oli*_*rth 56
如果你信任这些东西,这就是维基百科声称的内容(来自 http://en.wikipedia.org/wiki/Human_genome#Information_content):
单倍体人类基因组的29亿个碱基对对应于最大约725兆字节的数据,因为每个碱基对可以用2位编码.由于个体基因组彼此之间的差异小于1%,因此它们可以毫无损失地压缩到大约4兆字节.
rau*_*hen 25
您不会将所有DNA存储在一个流中,而是将其存储在染色体中.
大型染色体大约需要300 MB,小型大约需要50 MB.
编辑:
我认为它没有以每个碱基对2位保存的第一个原因是它会导致使用数据的障碍.大多数人都不知道如何转换它.即使提供转换程序,大型公司或研究机构中的很多人也不允许/不需要询问或不知道如何安装程序......
1GB存储成本没有,即使下载3 GB只需4分钟,100 Mbitsps,大多数公司都有更快的速度.
另一点是数据不像你被告知的那么简单.
例如,Craig_Venter发明的测序方法是一个很大的突破,但有其不足之处.它无法分离同一碱基对的长链,因此如果有8个A或9个A,它并不总是100%清晰.你以后必须要处理的事情......
另一个例子是DNA甲基化,因为您无法以2位表示形式存储此信息.
Pau*_*ong 11
基本上,每个碱基对需要2位(对于T,G,C和A,您可以使用00,01,10,11).由于人类基因组中有大约29亿个碱基对,(2*29亿)位〜= 691兆字节.
我不是专家,但维基百科上的人类基因组页面说明如下:
原始MB:
我不确定他们的差异来自哪里,但我相信你能搞清楚.
是的,整个人类DNA所需的最小RAM大约是770 MB.但是,2位表示是实用的.很难搜索或对其进行一些计算.因此,一些数学家设计了更有效的方法来存储这些基础序列......并将其用于搜索和比较算法,例如GARLI(www.bio.utexas.edu/faculty/antisense/garli/garli.html).这个应用程序现在在我的电脑上运行,所以我可以对你说......它实际上存储的DNA约为:1 563 MB.
人类基因组包含超过 30 亿个碱基对。因此,如果将每个碱基对表示为两位,那么它将占用 6.15 \xc3\x97 10\xe2\x81\xb9 位或大约 770 MB。
\n| 归档时间: |
|
| 查看次数: |
66672 次 |
| 最近记录: |