我们需要下载一个 182 GB 的压缩文件(未压缩为TSV)。但是,我们只需要文件的前五列,大约相当于 1 GB。
是否有一些奇特的 shell 魔法可以用来下载文件的子集?
下载整个文件只是为了删除 99% 的内容,这确实会耗尽我们服务器的存储空间。
正在下载的内容: 来自gnomad.broadinstitute.org的gnomad.genomes.v3.1.2.sites.chr1.vcf.bgz。
欢迎任何替代解决方案。我对也适用于非压缩文件的解决方案感兴趣。
要点是,当我只需要该文件的子集时,如何避免下载大量文件?