标签: duplicate

用于 Linux 的开源重复图像查找器？

是否有适用于基于 Linux 的系统的免费开源重复图像查找器？

找到完全相同的副本（基于内容，而不是文件名）对我来说就足够了，但是找到相似图像的能力当然也很棒。

duplicate search image-manipulation images

hpy*_*hpy

2014 01-23

27
推荐指数

1
解决办法

3万
查看次数

如何使用bash删除重复文件

我有一个包含重复（由md5sum（md5在 Mac 上））文件的文件夹，我想安排一个cron作业来删除任何找到的文件。

但是，我被困在如何做到这一点上。到目前为止我所拥有的：

md5 -r * | sort

Run Code Online (Sandbox Code Playgroud)

输出如下：

04c5d52b7acdfbecd5f3bdd8a39bf8fb gordondam_en-au11915031300_1366x768.jpg
1e88c6899920d2c192897c886e764fc2 fortbourtange_zh-cn9788197909_1366x768.jpg
266ea304b15bf4a5650f95cf385b16de nebraskasupercell_fr-fr11286079811_1366x768.jpg
324735b755c40d332213899fa545c463 grossescheidegg_en-us10868142387_1366x768.jpg
3993028fcea692328e097de50b26f540 Soyuz Spacecraft Rolled Out For Launch of One Year Crew.png
677bcd6006a305f4601bfb27699403b0 lechaustria_zh-cn7190263094_1366x768.jpg
80d03451b88ec29bff7d48f292a25ce6 ontariosunrise_en-ca10284703762_1366x768.jpg
b6d9d24531bc62d2a26244d24624c4b1 manateeday_row10617199289_1366x768.jpg
ca1486dbdb31ef6af83e5a40809ec561 Grueling Coursework.jpg
cdf26393577ac2a61b6ce85d22daed24 Star trails over Mauna Kea.jpg
dc3ad6658d8f8155c74054991910f39c smoocave_en-au10358472670_1366x768.jpg
dc3ad6658d8f8155c74054991910f39c smoocave_en-au10358472670_1366x7682.jpg

Run Code Online (Sandbox Code Playgroud)

如何根据文件的 MD5 进行处理以删除重复项？我真的不在乎我保留哪个“原创”——但我只想保留一个。

我应该以不同的方式来解决这个问题吗？

bash duplicate shell-script hashsum

war*_*ren

2015 03-27

16
推荐指数

3
解决办法

2万
查看次数

使用 shell 脚本从字符串中删除所有重复的单词

我有一个像

"aaa,aaa,aaa,bbb,bbb,ccc,bbb,ccc"

Run Code Online (Sandbox Code Playgroud)

我想从字符串中删除重复的单词然后输出就像

"aaa,bbb,ccc"

Run Code Online (Sandbox Code Playgroud)

我试过这个代码源

$ echo "zebra ant spider spider ant zebra ant" | xargs -n1 | sort -u | xargs

Run Code Online (Sandbox Code Playgroud)

它在相同的值下工作正常，但是当我给我的变量值时，它也会显示所有重复的单词。

如何删除重复值。

更新

如果用户相同，我的问题是将所有相应的值添加到一个字符串中。我有这样的数据 - >

   user name    | colour
    AAA         | red
    AAA         | black
    BBB         | red
    BBB         | blue
    AAA         | blue
    AAA         | red
    CCC         | red
    CCC         | red
    AAA         | green
    AAA         | red
    AAA         | black
    BBB         | red
    BBB         | blue
    AAA         | blue
    AAA         | red
    CCC         | …

Run Code Online (Sandbox Code Playgroud)

shell duplicate xargs shell-script text-processing

Urv*_*shi

2017 05-23

15
推荐指数

3
解决办法

3万
查看次数

使用 basename 解析文件中保存的路径列表

我正在运行 Mac OSX 并尝试使用命令行来查找我拥有的同名文件的数量。

我尝试使用以下命令：

find ~ -type f -name "*" -print | basename | sort | uniq -d > duplicate_files

Run Code Online (Sandbox Code Playgroud)

它不起作用！当我执行以下操作时：

find ~ -type f -name "*" -print > duplicate_files

Run Code Online (Sandbox Code Playgroud)

然后duplicate_files 确实包含我所有文件的路径。所以我认为问题在于basename- 它不接受标准输入。然后我尝试了以下方法：

basename $(find ~ -type f -name "*" -print) > duplicate_files

Run Code Online (Sandbox Code Playgroud)

但这似乎不起作用。在互联网上搜索似乎并没有带来多少乐趣。任何想法最受欢迎。

osx duplicate find filenames basename

Joh*_*hnB

2014 03-10

12
推荐指数

3
解决办法

2万
查看次数

删除具有不同名称、大小和哈希值的重复 mp3

我有一个庞大的音乐库（都是 mp3），但我的一些音乐几乎相同，但是：

也许多一两秒
大约 97% 与另一首歌曲相同
或者其他比特率。

有没有办法找到这些重复项？如前所述，它们没有相同的大小、名称或 SHA1 哈希。

duplicate mp3 music

Han*_*fen

lucky-day

10
推荐指数

2
解决办法

9035
查看次数

按内容查找重复的 PDF 文件

某些期刊为每次下载生成不同的 PDF。例如，APS在 PDF 中存储时间和 IP 地址。

或者有一个带有超链接的纸质版本和一个带有文本参考的版本。

如何通过使用开源软件在 linux 系统上找到 90% 相同内容的论文重复下载？

我一直在考虑将 PDF 文件转换为临时目录中的纯文本pdf2txt。然后我可以过滤所有diff a b结果超过 x 行的文件名。但这一点都不优雅，并且会在扫描出版物时失败。期刊通常不提供旧出版物的 OCR 文本。

我也尝试compare过 ImageMagick 套件，但我无法使用此工具处理多页 PDF 文件。

diffpdf 2.1.1在两个文件的 GUI 中做得很好，但我不知道如何将它应用于许多文件，并且最新版本在任何开源许可证下都不可用。

scripting duplicate pdf imagemagick

Jon*_*ein

2015 03-22

9
推荐指数

1
解决办法

2568
查看次数

搜索和删除具有不同名称的重复文件

我的硬盘上存储了大量音乐收藏；浏览了一下，发现有些相册目录下有很多重复的文件。通常，副本存在于同一目录中的原始文件旁边。

通常格式为filename.mp3，重复文件为filename 1.mp3。有时可能会有多个重复文件，我不知道文件夹之间是否存在重复文件（例如专辑目录的重复文件）。

有什么方法可以扫描这些重复文件（例如，通过比较文件大小，或比较整个文件以检查它们是否相同），查看结果，然后删除重复文件？名称较长或修改/创建日期较近的名称通常是删除的目标。

有没有可以在 Linux 上执行此操作的程序？

duplicate file-management files file-search

Ces*_*ian

2015 05-07

9
推荐指数

2
解决办法

1万
查看次数

从包含时间戳的文件中删除重复行

这个问题/答案有一些很好的解决方案来删除文件中的相同行，但在我的情况下不起作用，因为否则重复的行有一个时间戳。

是否可以告诉 awk 在确定重复项时忽略一行的前 26 个字符？

例子：

[Fri Oct 31 20:27:05 2014] The Brown Cow Jumped Over The Moon
[Fri Oct 31 20:27:10 2014] The Brown Cow Jumped Over The Moon
[Fri Oct 31 20:27:13 2014] The Brown Cow Jumped Over The Moon
[Fri Oct 31 20:27:16 2014] The Brown Cow Jumped Over The Moon
[Fri Oct 31 20:27:21 2014] The Brown Cow Jumped Over The Moon
[Fri Oct 31 20:27:22 2014] The Brown Cow Jumped Over The …

Run Code Online (Sandbox Code Playgroud)

duplicate awk text-processing deduplication

a c*_*der

2017 04-13

8
推荐指数

1
解决办法

3573
查看次数