是否可以在git中仅存储大文件的校验和?

And*_*imm 2 git large-files

我是生物信息学家,目前从基因组文件中提取正常大小的序列.一些基因组文件足够大,我不想将它们放入主git存储库,而我将提取的序列放入git.

是否有可能告诉git"这是一个大文件 - 不存储整个文件,只需取其校验和,并告诉我该文件是否丢失或修改."

如果那是不可能的,我想我将不得不git-ignore大文件,或者,如本问题所示,将它们存储在子模块中.

小智 6

我写了一个执行此类操作的脚本.您将.gitattributes文件中的文件模式放在您不希望进入git repo的大型媒体中,它可以将它们存储在S3上.这只是一个起点,但我认为如果您感兴趣的话它可以使用.

http://github.com/schacon/git-media

也许这会对您有所帮助,或至少向您展示如何完成它,您可以根据您的特定需求进行自定义.