bk.*_*bk. 20 git version-control dataset
我们经常处理一个项目,我们已经处理了一个大型数据集(例如,每个1GB的少量文件),并且正在编写代码来分析它.
所有分析代码都在Git中,因此每个人都可以检查我们的中央存储库的更改.但是如何处理代码正在使用的数据集?
我想要存储库中的数据:
但是,我不想要git存储库中的数据:
我似乎需要一个带有代码主存储库的设置和一个数据辅助存储库.是否可以在git或POSIX中优雅地实现这一点的任何建议或技巧?我所想到的一切都是这样或那样的.
Ada*_*ruk 15
使用子模块将您的巨型文件与源代码隔离开来.更多内容如下:
http://git-scm.com/book/en/v2/Git-Tools-Submodules
这些例子讨论了库,但这适用于大型膨胀的东西,如用于测试的数据样本,图像,电影等.
您应该能够在开发过程中飞行,只有在需要查看新版本的巨型数据时才会暂停.
有时跟踪这些事情的变化甚至都不值得.
通过获取更多克隆数据来解决您的问题:如果您的git实现支持您的操作系统上的硬链接,这应该是轻而易举的.
您的巨型数据集的性质也在起作用.如果你改变它的一部分,你是在改变巨大的blob还是几百万的几行?这应该确定VCS在为其播放通知机制方面的有效性.
希望这可以帮助.