存储人类基因组需要多少存储空间?

Mil*_*kov 73 storage bioinformatics genetics dna-sequence

我正在寻找存储单个人类基因组所需的存储量(MB,GB,TB等).我在维基百科上阅读了一些关于DNA,染色体,碱基对,基因的文章,并且有一些粗略的猜测,但在披露任何内容之前,我想看看其他人如何处理这个问题.

另一个问题是人类DNA中有多少原子,但这对于这个网站来说不合适.

我知道这将是一个近似值,所以我正在寻找能够存储任何人类DNA的最小值.

Oli*_*rth 56

如果你信任这些东西,这就是维基百科声称的内容(来自 http://en.wikipedia.org/wiki/Human_genome#Information_content):

单倍体人类基因组的29亿个碱基对对应于最大约725兆字节的数据,因为每个碱基对可以用2位编码.由于个体基因组彼此之间的差异小于1%,因此它们可以毫无损失地压缩到大约4兆字节.

  • 只是为了增加一些生物学评论,这里的"单倍体"意味着每个染色体只有一个拷贝.人参考组件是单倍体(和多个人的马赛克).实际的个体基因组将是二倍体(每个染色体的2个拷贝,除了X和Y),但是在一小部分位点处仅在两个拷贝之间仅变异. (7认同)
  • 想了一天,并意识到这一点:如果你存储了一些基础案例人类DNA,那么任何后续人类的DNA只需要存储为它与基础案例之间的差异.对于相同性别的例子,DNA的相同性为99.9%.而且在性别方面,它的比例为98.5%. (7认同)
  • @cowlinator 这些定义……很糟糕。在这种情况下,“可遗传”意味着“可遗传”*在分裂的母细胞和子细胞之间*,而不是在多细胞生物及其后代之间可遗传(这将是*跨代*表观遗传,这种情况存在但极其罕见,并且大多数声称的情况)其中一些基于糟糕的科学,通常不被专家接受)。但是写这句话的人可能并不完全清楚他们的意思,因为这句话的措辞不好没有任何借口。查看维基百科文章的“讨论”页面。 (3认同)
  • 另外值得记住的是,并非所有在DNA碱基对中编码的信息都有[表观遗传](https://en.wikipedia.org/wiki/Epigenetics)信息. (2认同)
  • 这是有道理的。碱基对基本上是四元的。4 进制数是 2 位,因此大小加倍。所以这是 5.8 GB 或 5.8/8 GB,即 0.725 GB 或 725 MB。“压缩”之所以可能,是因为您可以存储与映射基因组的差异,而不是存储整个基因组。 (2认同)

rau*_*hen 25

您不会将所有DNA存储在一个流中,而是将其存储在染色体中.

大型染色体大约需要300 MB,小型大约需要50 MB.


编辑:

我认为它没有以每个碱基对2位保存的第一个原因是它会导致使用数据的障碍.大多数人都不知道如何转换它.即使提供转换程序,大型公司或研究机构中的很多人也不允许/不需要询问或不知道如何安装程序......

1GB存储成本没有,即使下载3 GB只需4分钟,100 Mbitsps,大多数公司都有更快的速度.

另一点是数据不像你被告知的那么简单.

例如,Craig_Venter发明的测序方法是一个很大的突破,但有其不足之处.它无法分离同一碱基对的长链,因此如果有8个A或9个A,它并不总是100%清晰.你以后必须要处理的事情......

另一个例子是DNA甲基化,因为您无法以2位表示形式存储此信息.

  • 来自我的+1.但是,我不知道"大"或"小"染色体是什么意思? (2认同)
  • 这些数字与维基百科所说的不符(参见 http://en.wikipedia.org/wiki/Human_genome#Information_content 上的表格);我不是说你错了,但你能解释一下差异吗? (2认同)

Pau*_*ong 11

基本上,每个碱基对需要2位(对于T,G,C和A,您可以使用00,01,10,11).由于人类基因组中有大约29亿个碱基对,(2*29亿)位〜= 691兆字节.

我不是专家,但维基百科上的人类基因组页面说明如下:

原始MB:

  • 男(XY):770MB
  • 女(XX):756MB

我不确定他们的差异来自哪里,但我相信你能搞清楚.

  • 实际上,需要超过2位,因为存在于序列信息中的其他碱基(例如,"N",其中数据不可映射且因此未知).IUPAC核苷酸代码包括超过标准的四个,这可以增加存储开销.http://www.ebi.ac.uk/2can/tutorials/aa.html (6认同)
  • @AlexReynolds @ o0'http://www.bioinformatics.org/sms2/iupac.html是这些IUPAC代码的更好链接.AIUI,一个特殊的基因组"扫描"由于不精确需要超过2位,因此对于A或G都是"R",对于任何碱基都是"N",对于间隙是"."等等.如果我们能够完美地读取基因组,每个基数只有2位. (2认同)

Fil*_*dlo 8

是的,整个人类DNA所需的最小RAM大约是770 MB.但是,2位表示是实用的.很难搜索或对其进行一些计算.因此,一些数学家设计了更有效的方法来存储这些基础序列......并将其用于搜索和比较算法,例如GARLI(www.bio.utexas.edu/faculty/antisense/garli/garli.html).这个应用程序现在在我的电脑上运行,所以我可以对你说......它实际上存储的DNA约为:1 563 MB.


sla*_*ton 7

人类基因组包含超过 30 亿个碱基对。因此,如果将每个碱基对表示为两位,那么它将占用 6.15 \xc3\x97 10\xe2\x81\xb9 位或大约 770 MB。

\n

  • @SDGuero,碱基对是基数 4 而不是基数 2,因此您至少需要 2 位来表示碱基对。 (7认同)
  • @zf007 碱基对由 a、c、g 和 t 的 TOKENS 表示。令牌与字符不同。没有理由 a 不能编码为 00、c 编码为 01、g 编码为 10、t 编码为 11 (6认同)
  • 存在差异;您断言需要一个人类可读的文件,这不在原始帖子中。 (6认同)