标签: deduplication

Windows 存在哪些重复文件和文件夹查找器?

我需要一个免费的重复文件查找器/删除器应用程序,能够按名称和/或大小查找重复文件/文件夹并删除重复文件之一。

windows file-management deduplication

59
推荐指数
5
解决办法
3万
查看次数

如何用硬链接替换所有重复文件?

我有两个包含各种文件的文件夹。第一个文件夹中的某些文件在第二个文件夹中具有完全相同的副本。我想用硬链接替换那些。我怎样才能做到这一点?

deduplication filesystems hardlink

29
推荐指数
3
解决办法
1万
查看次数

有没有办法在 Sublime Text 中提取重复的行?

我需要在 Sublime Text 中执行 2 个操作:提取唯一行和提取重复行。例如对于输入

a
b
a
Run Code Online (Sandbox Code Playgroud)

提取重复项应导致:

a
Run Code Online (Sandbox Code Playgroud)

和 Extract unique 应该导致:

b
Run Code Online (Sandbox Code Playgroud)

是否有内置操作或插件来做到这一点?

deduplication sublime-text-3

26
推荐指数
2
解决办法
2万
查看次数

如何对 40TB 的数据进行重复数据删除?

我继承了一个研究集群,其中包含跨三个文件系统的约 40TB 数据。这些数据可以追溯到近 15 年前,而且很可能存在大量重复,因为研究人员出于不同的原因互相复制数据,然后继续保留副本。

我知道像 fdupes 和 rmlint 这样的重复数据删除工具。我正在尝试找到一个适用于如此大数据集的方法。我不在乎爬取所有数据是否需要数周(甚至数月)的时间 - 我可能会对其进行节流,以便在文件系统上轻松进行。但是我需要找到一种工具,它要么在 RAM 上以某种方式非常高效,要么可以将它需要的所有中间数据存储在文件中而不是 RAM 中。我假设如果我将所有这些数据作为一组爬行,我的 RAM (64GB) 将耗尽。

我现在正在 900GB 树上试验 fdupes。它已经完成了 25%,并且 RAM 使用量一直在缓慢上升,现在达到 700MB。

或者,有没有一种方法可以指导进程使用磁盘映射 RAM,以便有更多可用空间而不使用系统 RAM?

我正在运行 CentOS 6。

deduplication centos-6

17
推荐指数
1
解决办法
1461
查看次数

从计算机中删除重复图像文件的最佳方法是什么?

我的 Windows 计算机上有很多重复的图像文件,它们位于不同的子文件夹中,并且具有不同的文件名。

您会推荐什么 Python 脚本或免费软件程序来删除重复项?

(我读过这个类似的问题,但那里的海报询问了不同文件大小的视觉重复。我的是具有不同文件名的完全重复。)

windows python deduplication image-processing

14
推荐指数
3
解决办法
5661
查看次数

是否有适用于 Windows 的压缩或存档程序也可以执行重复数据删除?

我正在寻找可以对正在归档的文件执行重复数据删除 (dedupe) 的归档程序。解压缩存档后,该软件会将在压缩过程中删除的所有文件放回原处。

到目前为止,我发现:

任何人都知道其他人吗?

这可能是 7-zip 的一个很棒的补充。

compression software-rec deduplication

13
推荐指数
2
解决办法
5824
查看次数

如何根据某些列删除重复的行

我有一个包含重复行的 Excel 表

如果 ACDEF 列相同,我想删除一行(在计算重复项时忽略 B,但在删除行时删除它)

目前它在比较和删除时忽略 B。

deduplication microsoft-excel

11
推荐指数
1
解决办法
10万
查看次数

在bash中,如何查找特定目录中给定文件的所有副本?

假设我们有一个/a_long_path_1/foo.doc大小为 12345 字节的文件,我们希望在目录中找到该文件的所有副本/a_long_path_2,并/a_long_path_3递归地包括其所有子目录。副本名称的主要部分可能有所不同foo(尽管扩展名.doc可能保持不变),并且创建/修改日期可能不同,但foo其副本的内容应该相同。

\n

如果我发出find /a_long_path_2 /a_long_path_3 -size 12345c -iname \\*.doc,我得到的列表太大,无法通过手动检查diff。需要自动化。可能使自动化变得困难的附加信息:此命令输出中的某些目录名称find \xe2\x80\xa6包含空格。

\n

需要明确的是:我不希望找到文件系统上所有文件的所有重复项(而是仅找到一个特定文件的所有重复项),甚至不希望作为中间步骤。(无论如何,这样的列表会很大。)

\n

linux debian bash deduplication find

11
推荐指数
1
解决办法
625
查看次数

删除重复文件的方法

我只想在多台机器上备份和存档文件。不幸的是,这些文件有一些大文件,它们是同一个文件,但在不同机器上的存储方式不同。例如,可能有几百张照片作为临时备份从一台计算机复制到另一台计算机。现在我想创建一个公共文件存储库,我不想要同一张照片的多个副本。

如果我将所有这些文件复制到一个目录中,是否有一种工具可以通过并识别重复文件并给我一个列表甚至删除其中一个重复文件?

backup file-management deduplication

10
推荐指数
1
解决办法
4760
查看次数

免费重复 mp3 查找器

前段时间我通过分析内容使用了 mp3 的重复文件查找器。不幸的是,它不是免费的,而且共享软件有很多限制。

是否有任何免费软件/OSS 可以检测和删除重复的歌曲?

mp3 deduplication

9
推荐指数
1
解决办法
7039
查看次数