相关疑难解决方法(0)

我想对 ~1m+ 文档进行分类，并有一个版本控制系统用于相应模型的输入和输出。

数据随时间变化：

所以基本上“一切”可能会改变：观察量、特征和值。我们有兴趣在不使用 10/100+ GB 磁盘容量的情况下使 ml 模型构建可重现，因为我们保存了输入数据的所有更新版本。目前数据的卷大小是~700mb。

我发现的最有前途的工具是：https : //github.com/iterative/dvc。目前，数据存储在数据库中，从那里加载到 R/Python 中。

题：

使用 dvc 可以（非常近似）节省多少磁盘容量？

如果可以粗略估计一下。我试图找出是否只保存了数据的“差异”。我没有通过阅读以下内容找到太多信息：https : //github.com/iterative/dvc#how-dvc-works或其他文档。

我知道这是一个非常模糊的问题。它将高度依赖于数据集。但是，我仍然有兴趣获得一个非常近似的想法。

7
推荐指数

1
解决办法

478
查看次数

dvc ×1

git ×1

r ×1

sql ×1