我需要一个免费的重复文件查找器/删除器应用程序,能够按名称和/或大小查找重复文件/文件夹并删除重复文件之一。
我有两个包含各种文件的文件夹。第一个文件夹中的某些文件在第二个文件夹中具有完全相同的副本。我想用硬链接替换那些。我怎样才能做到这一点?
我需要在 Sublime Text 中执行 2 个操作:提取唯一行和提取重复行。例如对于输入
a
b
a
Run Code Online (Sandbox Code Playgroud)
提取重复项应导致:
a
Run Code Online (Sandbox Code Playgroud)
和 Extract unique 应该导致:
b
Run Code Online (Sandbox Code Playgroud)
是否有内置操作或插件来做到这一点?
我继承了一个研究集群,其中包含跨三个文件系统的约 40TB 数据。这些数据可以追溯到近 15 年前,而且很可能存在大量重复,因为研究人员出于不同的原因互相复制数据,然后继续保留副本。
我知道像 fdupes 和 rmlint 这样的重复数据删除工具。我正在尝试找到一个适用于如此大数据集的方法。我不在乎爬取所有数据是否需要数周(甚至数月)的时间 - 我可能会对其进行节流,以便在文件系统上轻松进行。但是我需要找到一种工具,它要么在 RAM 上以某种方式非常高效,要么可以将它需要的所有中间数据存储在文件中而不是 RAM 中。我假设如果我将所有这些数据作为一组爬行,我的 RAM (64GB) 将耗尽。
我现在正在 900GB 树上试验 fdupes。它已经完成了 25%,并且 RAM 使用量一直在缓慢上升,现在达到 700MB。
或者,有没有一种方法可以指导进程使用磁盘映射 RAM,以便有更多可用空间而不使用系统 RAM?
我正在运行 CentOS 6。
我的 Windows 计算机上有很多重复的图像文件,它们位于不同的子文件夹中,并且具有不同的文件名。
您会推荐什么 Python 脚本或免费软件程序来删除重复项?
(我读过这个类似的问题,但那里的海报询问了不同文件大小的视觉重复。我的是具有不同文件名的完全重复。)
我正在寻找可以对正在归档的文件执行重复数据删除 (dedupe) 的归档程序。解压缩存档后,该软件会将在压缩过程中删除的所有文件放回原处。
到目前为止,我发现:
任何人都知道其他人吗?
这可能是 7-zip 的一个很棒的补充。
我有一个包含重复行的 Excel 表
如果 ACDEF 列相同,我想删除一行(在计算重复项时忽略 B,但在删除行时删除它)
目前它在比较和删除时忽略 B。
假设我们有一个/a_long_path_1/foo.doc大小为 12345 字节的文件,我们希望在目录中找到该文件的所有副本/a_long_path_2,并/a_long_path_3递归地包括其所有子目录。副本名称的主要部分可能有所不同foo(尽管扩展名.doc可能保持不变),并且创建/修改日期可能不同,但foo其副本的内容应该相同。
如果我发出find /a_long_path_2 /a_long_path_3 -size 12345c -iname \\*.doc,我得到的列表太大,无法通过手动检查diff。需要自动化。可能使自动化变得困难的附加信息:此命令输出中的某些目录名称find \xe2\x80\xa6包含空格。
需要明确的是:我不希望找到文件系统上所有文件的所有重复项(而是仅找到一个特定文件的所有重复项),甚至不希望作为中间步骤。(无论如何,这样的列表会很大。)
\n我只想在多台机器上备份和存档文件。不幸的是,这些文件有一些大文件,它们是同一个文件,但在不同机器上的存储方式不同。例如,可能有几百张照片作为临时备份从一台计算机复制到另一台计算机。现在我想创建一个公共文件存储库,我不想要同一张照片的多个副本。
如果我将所有这些文件复制到一个目录中,是否有一种工具可以通过并识别重复文件并给我一个列表甚至删除其中一个重复文件?
前段时间我通过分析内容使用了 mp3 的重复文件查找器。不幸的是,它不是免费的,而且共享软件有很多限制。
是否有任何免费软件/OSS 可以检测和删除重复的歌曲?
deduplication ×10
windows ×2
backup ×1
bash ×1
centos-6 ×1
compression ×1
debian ×1
filesystems ×1
find ×1
hardlink ×1
linux ×1
mp3 ×1
python ×1
software-rec ×1