git-annex 适合我的场景吗？

Question

我有一个 git 存储库，其中包含我想在 github 上公开的源代码。

但是，我也有数千兆字节的数据，我不想在公开和存储库中拥有它们——它们很大，它们是专有的，它们“负担”着版权等等。然而，这些逻辑上也是“同一项目的一部分”，我希望对它们的历史有一些控制（基本上，git 已经做了什么）。

现在，我将它们放在存储库中的目录“data”中，并且我忽略了该目录，并且我辞去了让它们使用 git 的工作。

但是，我已经阅读了关于 git-annex 的内容，它似乎可以做我想做的事。所以，我有两个问题。

git附件适合我吗？
我应该如何在我的场景中使用 git Annex？含义 - 我应该使用哪些命令以及如何使用？

我试图阅读官方文档，但它讨论了我不关心的用例。我只有一台计算机上的数据，我认为我不会很快移动它们（有这种可能性很好，但这不是我想使用 git Annex 的原因）。此外，文档很难阅读。

Answer 1

Git-annex 确实可以帮助您处理大型二进制数据块。但是，我认为您应该考虑不要将它与您的源代码放在同一个存储库中。它需要下载大量数据才能克隆您的存储库，如果这些大文件在一段时间内更新，将很难回收空间。

因此，我建议查看Git 子模块并将/data子模块创建到另一个包含大部分或仅包含 Git-annex 数据的存储库。

我认为这种方法将有助于保持您的源代码存储库干净和快速，但提供了一种在一定程度上对大型二进制 blob 使用版本控制的方法。

编辑/更新：我认为是否为此创建子模块实际上并没有太大区别。最后只是Git附件，用户可以按需下载文件；没有任何默认下载克隆上的所有文件。