相关疑难解决方法(0)

我可以大约多少钱。使用 dvc 减少磁盘体积?

我想对 ~1m+ 文档进行分类,并有一个版本控制系统用于相应模型的输入和输出。

数据随时间变化:

  • 样本量随时间增加
  • 可能会出现新功能
  • 匿名化程序可能会随着时间的推移而改变

所以基本上“一切”可能会改变:观察量、特征和值。我们有兴趣在不使用 10/100+ GB 磁盘容量的情况下使 ml 模型构建可重现,因为我们保存了输入数据的所有更新版本。目前数据的卷大小是~700mb。

我发现的最有前途的工具是:https : //github.com/iterative/dvc。目前,数据存储在数据库中,从那里加载到 R/Python 中。

题:

使用 dvc 可以(非常近似)节省多少磁盘容量?

如果可以粗略估计一下。我试图找出是否只保存了数据的“差异”。我没有通过阅读以下内容找到太多信息:https : //github.com/iterative/dvc#how-dvc-works或其他文档。

我知道这是一个非常模糊的问题。它将高度依赖于数据集。但是,我仍然有兴趣获得一个非常近似的想法。

python sql git r dvc

7
推荐指数
1
解决办法
478
查看次数

标签 统计

dvc ×1

git ×1

python ×1

r ×1

sql ×1