标签: deduplication

我知道像 fdupes 和 rmlint 这样的重复数据删除工具。我正在尝试找到一个适用于如此大数据集的方法。我不在乎爬取所有数据是否需要数周（甚至数月）的时间 - 我可能会对其进行节流，以便在文件系统上轻松进行。但是我需要找到一种工具，它要么在 RAM 上以某种方式非常高效，要么可以将它需要的所有中间数据存储在文件中而不是 RAM 中。我假设如果我将所有这些数据作为一组爬行，我的 RAM (64GB) 将耗尽。

我现在正在 900GB 树上试验 fdupes。它已经完成了 25%，并且 RAM 使用量一直在缓慢上升，现在达到 700MB。

或者，有没有一种方法可以指导进程使用磁盘映射 RAM，以便有更多可用空间而不使用系统 RAM？

我正在运行 CentOS 6。

deduplication centos-6

Mic*_*fer

2014 08-23

17
推荐指数

1
解决办法

1461
查看次数

从计算机中删除重复图像文件的最佳方法是什么？

我的 Windows 计算机上有很多重复的图像文件，它们位于不同的子文件夹中，并且具有不同的文件名。

您会推荐什么 Python 脚本或免费软件程序来删除重复项？

（我读过这个类似的问题，但那里的海报询问了不同文件大小的视觉重复。我的是具有不同文件名的完全重复。）

windows python deduplication image-processing

Bio*_*eek

2017 05-23

14
推荐指数

3
解决办法

5661
查看次数

是否有适用于 Windows 的压缩或存档程序也可以执行重复数据删除？

我正在寻找可以对正在归档的文件执行重复数据删除 (dedupe) 的归档程序。解压缩存档后，该软件会将在压缩过程中删除的所有文件放回原处。

到目前为止，我发现：

任何人都知道其他人吗？

这可能是 7-zip 的一个很棒的补充。

compression software-rec deduplication

Lar*_*man

2011 05-21

13
推荐指数

2
解决办法

5824
查看次数

如何根据某些列删除重复的行

我有一个包含重复行的 Excel 表

如果 ACDEF 列相同，我想删除一行（在计算重复项时忽略 B，但在删除行时删除它）

目前它在比较和删除时忽略 B。

deduplication microsoft-excel

use*_*949

2018 01-13

11
推荐指数

1
解决办法

10万
查看次数

在bash中，如何查找特定目录中给定文件的所有副本？

假设我们有一个/a_long_path_1/foo.doc大小为 12345 字节的文件，我们希望在目录中找到该文件的所有副本/a_long_path_2，并/a_long_path_3递归地包括其所有子目录。副本名称的主要部分可能有所不同foo（尽管扩展名.doc可能保持不变），并且创建/修改日期可能不同，但foo其副本的内容应该相同。

如果我发出find /a_long_path_2 /a_long_path_3 -size 12345c -iname \\*.doc，我得到的列表太大，无法通过手动检查diff。需要自动化。可能使自动化变得困难的附加信息：此命令输出中的某些目录名称find \xe2\x80\xa6包含空格。

需要明确的是：我不希望找到文件系统上所有文件的所有重复项（而是仅找到一个特定文件的所有重复项），甚至不希望作为中间步骤。（无论如何，这样的列表会很大。）

linux debian bash deduplication find

作者

2023 01-01

11
推荐指数

1
解决办法

625
查看次数