标签: deduplication

使用 NFS 挂载时,如何在目录中包含两个同名文件?

我有一个 C++ 应用程序测试,它在 NFS 挂载目录中创建了 10,000 个文件,但我的测试最近失败了一次,因为一个文件在该目录中与所有其他 10,000 个文件以相同的名称出现了两次。这可以在安装了 NFS 目录的 Linux Centos v4 或 v5 上看到,但不能在磁盘所在的主机上看到。

怎么可能在同一个目录中有两个同名的文件?

[centos4x32 destination] ls -al ./testfile03373
-rwx------  1 user root 3373 Sep  3 03:23 ./testfile03373*
[centos4x32 destination] ls -al ./testfile03373*
-rwx------  1 user root 3373 Sep  3 03:23 ./testfile03373*
-rwx------  1 user root 3373 Sep  3 03:23 ./testfile03373*
[centos4x32 destination] ls -al *testfile03373
-rwx------  1 user root 3373 Sep  3 03:23 testfile03373*
-rwx------  1 user root 3373 Sep  3 03:23 testfile03373*
[centos4x32 destination] …
Run Code Online (Sandbox Code Playgroud)

centos deduplication filesystems nfs

8
推荐指数
2
解决办法
7888
查看次数

为什么我在 Windows 7 中的一个目录中有相同的文件?

在一个新的电源启动了我的 CPU、MBD、显卡和蓝光驱动器后,我刚刚重建了我的系统。

在所有这些过程中,我不得不从备份(扇区副本)中恢复 Windows。

一切看起来都很好,但今天我进入了示例图片(偶然),当我看到一些奇怪的东西时,我正在点击它 - 几个文件具有相同的名称!

这是我到目前为止所拥有的:

  1. Chkdsk 没有显示错误,驱动器很好。显然是重启了。我总是让 Windows 显示扩展名和隐藏文件(这里不适用,没有隐藏文件)。
  2. 这些文件是:(都是.jpg)菊花、沙漠、绣球花、水母、考拉、灯塔、企鹅和郁金香。其余的显示单个名称,所以不是所有的重复。陌生人与陌生人。
  3. 如果我在名称上单击两次(就像您要重命名一样),则会突出显示第一部分,但如果我对第二个副本这样做,则会突出显示包括扩展名在内的整个名称!例如:第一个是 Tulip.jpg,第二个是 Tulip.jpg。第二个是“dup”。Win7 通常只高亮第一部分,而不是扩展名。
  4. 名称相同。几乎没有,没有隐藏字符,完全相同
  5. 如果我“在此处打开命令提示符”并执行 DIR,名称将正确显示!所以 8.3 名称是正确的,但 Windows 显示它们是错误的。
  6. 如果我改变视图,它们会正确地重新排序,两个郁金香彼此相邻。
  7. 打开属性显示两者的名称相同,但是,如果您查看详细信息,它会显示正确的信息 - 相机、拍摄日期等。
  8. 如果我打开它们,就像在 Irfan Viewer 中一样,它们会显示正确的名称。我想 - “一定是拉了 8.3 的名字”,但名字很长,比如 Chrysanthemum。
  9. 如果我切换到大图标,缩略图下会显示不同的同名图片!例如:郁金香(#2)实际上是瀑布,但显示了郁金香这个名字。

所以我的问题是:

怎么可能在同一个目录中拥有完全相同的名称的相同文件?是什么导致了这种情况?

windows-7 deduplication duplicate filenames

7
推荐指数
2
解决办法
5151
查看次数

查找文件夹中几乎重复的文件

我有一个装满文件的文件夹,里面有许多重复的文件。不幸的是,在许多情况下,一个版本是另一个版本的更新版本,因此直接字节匹配无法定位重复。(我看过这个问题,但我从列表中看过的所有问题似乎都只进行字节计数比较......)

是否有任何 (Windows) 重复数据删除应用程序可以进行相似性匹配并将用户指向相关文件进行检查?免费软件是好的,免费试用是可以接受的。即使只是一个相似之处来告诉我在哪里看也可能会奏效。

编辑:对不起,我应该提到;这些是基于文本的文件,主要是 DOC、PPT 和 PDF。最有可能发生变化的是内容,但格式也可能有所不同。即使只是接受文本更改也可能会有所帮助......

software-rec deduplication

6
推荐指数
1
解决办法
528
查看次数

检测 mp3 几乎重复的软件?

由于一些不幸的情况,我注意到我不可逆转地将我的排序和重新标记的 mp3 与旧备份混合在一起。这意味着现在我的文件基本上是重复的,除了 id3 标签和路径。FSlint在查找真正的重复文件方面做得很好,但是有没有免费工具来检测 ID3 不同的重复 mp3?我的偏好是 linux 工具,但 windows 也可以接受。

mp3 music id3 tags deduplication

6
推荐指数
2
解决办法
1803
查看次数

是否有允许您排除列的差异实用程序?

例如,我有一个文本文件,每一行都是一个长字符串。我想排除这个字符串的 2 个“段”,比如第 1-7 和 20-22 列。所以下面的两行将是匹配的:

123456789012345678901234567890 
------------------------------
xxxxxxxAAAAAAAAAAAAxxxBBBBBBBB
yyyyyyyAAAAAAAAAAAAyyyBBBBBBBB
Run Code Online (Sandbox Code Playgroud)

我知道 WinMerge 有一个“IgnoreColumns”插件,但我从来没有这样做过。在本例中,我将其重命名为 IgnoreColumns_1-7, 20-22.dll,在插件菜单中选择它,然后选择“Pre-Differ”。但它从未奏效。

我将比较不想修改的大文件。我不反对在与 sed 或类似的比较中对它们进行流式编辑,但我不想修改实际文件。我还没有选择将 sed 提供给 diff 只是因为我希望获得更直观的数据视图。

diff deduplication

6
推荐指数
2
解决办法
7830
查看次数

zfs on linux 压缩和重复数据删除顺序

在 linux 上的 zfs 上写入 zfs 文件系统的数据的顺序是什么?

我在http://docs.oracle.com/cd/E36784_01/html/E36835/gkknx.html 上找到的唯一特定文件说;When a file is written, the data is compressed, encrypted, and the checksum is verified. Then, the data is deduplicated, if possible.

但如果这是真的,那么 dedup 将不会对使用不同压缩算法压缩的块进行重复数据删除。

我测试mysqlf,我相信,顺序如下:dedup, compress, encrypt

我的测试设置:

zpool create tank /dev/sdb
zfs create tank/lz4
zfs create tank/gzip9
zfs set compression=lz4 tank/lz4
zfs set compression=gzip-9 tank/gzip9
zfs set dedup=on tank
Run Code Online (Sandbox Code Playgroud)

输出 zfs list

NAME         USED  AVAIL  REFER  MOUNTPOINT
tank         106K  19,3G    19K  /tank
tank/gzip9    19K  19,3G …
Run Code Online (Sandbox Code Playgroud)

linux compression deduplication zfs

6
推荐指数
1
解决办法
6137
查看次数

iTunes - 多张专辑中的一首曲目

我正在使用 Windows 7 来执行此操作。我有相当广泛的音乐库,现在我有很多重复的曲目,但在不同的专辑中。显然我真的不想要重复的文件,但我仍然希望它们出现在它们应该出现的所有专辑中。我遇到的最大例子是,我现在有多个英国前 40 名,有些歌曲在排行榜上排了好几个星期,所以我不想要那首歌的多个版本 - 但我确实希望能够看到这首歌在每个星期仍然。(在我的 iPhone 上...)

有没有办法在 iTunes 中做到这一点?如果这意味着我可以消除重复的曲目,我不介意一些乏味的工作!

itunes music deduplication libraries

5
推荐指数
0
解决办法
5003
查看次数

如何找到重复的图像并比较它们的元数据?

是否有适用于 Windows 的应用程序可以找到重复的图像并快速预览图像,最重要的是,图像文件的元数据。

我可以看到有一些程序可以查找内容相同的文件,只是名称不同,还有其他程序可以让您在忽略元数据的情况下找到具有相似图像的文件。

但是,当我看到两个包含相同图像的文件时,最重要的区别就变成了元数据。例如,一张图片有一些标签或描述,但另一张没有(或不同)。

我发现的程序只提供图像预览,并比较文件名、路径、大小,但不提供元数据。

windows software-rec deduplication

5
推荐指数
1
解决办法
2450
查看次数

查看数据集上的 ZFS 重复数据删除率

我有一个包含多个数据集的容器,其中只有一个配置为使用重复数据删除。

如何查看此数据集的比率?我得到了整个池的 1.00 倍的比率,但我想这只是报告了坦克中内容的比率,这没什么(我只有坦克中的数据集)。

deduplication zfs

5
推荐指数
1
解决办法
2万
查看次数

Digikam (KDE) - 如何删除所有重复的照片,但保留参考图像?

尽管 Digikam 提供了查找重复照片的出色功能,但据我所知,它并不能轻松删除重复照片并保留原始照片。我希望该功能就在那里,但我找不到它。

如何隐藏参考图像并仅显示重复图像以将其删除?

我无法执行“限制:排除参考相册”,因为我的所有原始照片和重复照片都在同一个相册(文件夹)中。

kde photos deduplication digikam

5
推荐指数
1
解决办法
6522
查看次数

在 OSX Lion 中使用命令行对文件进行重复数据删除

我使用的是 OSX 10.8.4,并且希望在 md5 哈希匹配的情况下删除单个平面目录中的重复文件。

我查找了几个答案,但没有一个对我有用,我认为这是因为终端版本之间的命令语法存在差异。

我尝试过的事情:

http://www.chriswrites.com/2012/02/how-to-find-and-delete-duplicate-files-in-mac-os-x/

使用脚本查找并删除 osx 中的重复文件

其中一些: http: //www.commandlinefu.com/commands/view/3555/find-duplicate-files-based-on-size-first-then-md5-hash#comment

这种方法感觉最接近:

find . -size 20 \! -type d -exec cksum {} \; | sort | tee /tmp/f.tmp | cut -f 1,2 -d ' ' | uniq -d | grep -hif - /tmp/f.tmp > duplicates.txt
Run Code Online (Sandbox Code Playgroud)

但我收到一个错误:grep: -: No such file or directory

经检查,/tmp/f.tmp确实存在。duplicates.txt 文件已创建,但为空。

如何删除这些文件的重复数据?

deduplication command-line

4
推荐指数
1
解决办法
3003
查看次数

是否有类似硬链接的东西在修改时分成单独的文件?

比方说,文件origcopy是巨大的,但相同的文件。为了节省存储空间,因此可以对两个文件进行copy软链接orig或硬链接到相同的数据。orig绝不能修改,而在将来copy可能会这样做。

是否可以实现copy再次成为自己的文件,对其进行实例修改,从而orig以再次丢失先前保存的空间为代价保持未修改?

windows-7 ntfs deduplication symbolic-link

2
推荐指数
1
解决办法
225
查看次数

为什么重复的文件有不同的校验和?

我正在尝试从包含 Outlook 中存档的 .PST 文件的单个文件夹中删除数百个重复的 .PST 文件。我尝试过几个重复删除器应用程序,它们依靠校验和来确定等效性,得到相同的结果:明显重复的文件具有不同的校验和。我被引导相信仅仅拥有不同的标题不应该改变校验和。是什么导致了不同的校验和?

.PST 目录中显示重复项的文件子集:

12/15/2021  09:01 AM        96,011,264 11_SonyArchiveFolderBackup Repaired (2).pst
12/15/2021  09:01 AM        96,011,264 11_SonyArchiveFolderBackup Repaired.pst
12/15/2021  09:01 AM       111,756,288 11_SonyArchiveFolderBackup.pst
12/15/2021  09:01 AM           271,360 12-4_Inbox - Copy (2).pst
12/15/2021  09:01 AM           271,360 12-4_Inbox - Copy (3).pst
12/15/2021  09:01 AM           271,360 12-4_Inbox.pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (10).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (11).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (12).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (13).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (14).pst
12/15/2021  09:02 …
Run Code Online (Sandbox Code Playgroud)

deduplication

-1
推荐指数
1
解决办法
2969
查看次数