我们开始将dvc 与git 一起使用以控制机器学习项目的版本控制。对于dvc远程存储,我们使用Google云存储。
我们的数据集是包含超过100000张小图像的OCR数据集,总大小约为200 MB。使用dvc跟踪此数据集时,我们遇到了下一个问题:
换句话说,如果我们压缩数据集并以单个文件dvc的形式跟踪它足够快地工作,但是问题在于这种方式我们无法跟踪特定文件的更改。
目标是对具有大量文件的数据集进行版本控制,并具有下一个功能。
任何有关更好解决方案的建议都可以接受。
git machine-learning google-cloud-storage dvc
dvc ×1
git ×1
google-cloud-storage ×1
machine-learning ×1