我想对 ~1m+ 文档进行分类,并有一个版本控制系统用于相应模型的输入和输出。
数据随时间变化:
所以基本上“一切”可能会改变:观察量、特征和值。我们有兴趣在不使用 10/100+ GB 磁盘容量的情况下使 ml 模型构建可重现,因为我们保存了输入数据的所有更新版本。目前数据的卷大小是~700mb。
我发现的最有前途的工具是:https : //github.com/iterative/dvc。目前,数据存储在数据库中,从那里加载到 R/Python 中。
题:
使用 dvc 可以(非常近似)节省多少磁盘容量?
如果可以粗略估计一下。我试图找出是否只保存了数据的“差异”。我没有通过阅读以下内容找到太多信息:https : //github.com/iterative/dvc#how-dvc-works或其他文档。
我知道这是一个非常模糊的问题。它将高度依赖于数据集。但是,我仍然有兴趣获得一个非常近似的想法。