从包含数百万个文件的目录（bash/python/perl）中通过精确匹配有效地查找数千个文件

Question

从包含数百万个文件的目录（bash/python/perl）中通过精确匹配有效地查找数千个文件

我在 Linux 上，我试图从包含数百万个文件的目录 (SOURCE_DIR) 中查找数千个文件。我有一个需要查找的文件名列表，存储在单个文本文件 (FILE_LIST) 中。该文件的每一行都包含一个与 SOURCE_DIR 中的文件相对应的名称，并且该文件中有数千行。

## FILE_LIST contain single word file names, each per line
#Name0001
#Name0002
#..
#Name9999

Run Code Online (Sandbox Code Playgroud)

我想将文件复制到另一个目录 (DESTINATION_DIR)。我写了下面的循环，里面有循环，一一查找。

#!/bin/bash
FILE_LIST='file.list'
## FILE_LIST contain single word file names, each per line
#Name0001
#Name0002
#..
#Name9999

SOURCE_DIR='/path/to/source/files' # Contain millions of files in sub-directories
DESTINATION_DIR='/path/to/destination/files' # Files will be copied to here


while read FILE_NAME
do
    echo $FILE_NAME
    for FILE_NAME_WITH_PATH in `find SOURCE_DIR -maxdepth 3 -name "$FILE_NAME*" -type f -exec readlink -f {} \;`; 
    do 
        echo $FILE
        cp -pv $FILE_NAME_WITH_PATH $DESTINATION_DIR; 
    done
done < $FILE_LIST

Run Code Online (Sandbox Code Playgroud)

这个循环需要很多时间，我想知道是否有更好的方法来实现我的目标。我进行了搜索，但没有找到解决我的问题的方法。如果已经存在，请直接给我一个解决方案，或者在上面的代码中建议任何调整。如果另一种方法甚至是 python/perl 解决方案，我也很好。感谢您的时间和帮助！

Answer 1

zdi*_*dim 6

注意 下面添加的处理不同目录中相同名称的代码

需要找到要复制的文件，因为它们没有给出路径（不知道它们在哪个目录中），但是重新搜索每个文件非常浪费，大大增加了复杂性。

相反，首先为每个文件名构建一个带有完整路径名的哈希。

一种方法，使用 Perl，利用快速核心模块File::Find

use warnings;
use strict;
use feature 'say';

use File::Find;
use File::Copy qw(copy);

my $source_dir = shift // '/path/to/source';  # give at invocation or default

my $copy_to_dir = '/path/to/destination';

my $file_list = 'file_list_to_copy.txt';  
open my $fh, '<', $file_list or die "Can't open $file_list: $!";
my @files = <$fh>;
chomp @files;


my %fqn;    
find( sub { $fqn{$_} = $File::Find::name  unless -d }, $source_dir );

# Now copy the ones from the list to the given location        
foreach my $fname (@files) { 
    copy $fqn{$fname}, $copy_to_dir  
        or do { 
            warn "Can't copy $fqn{$fname} to $copy_to_dir: $!";
            next;
        };
}

Run Code Online (Sandbox Code Playgroud)

剩下的问题是关于可能存在于多个目录中的文件名，但我们需要给出一个规则来决定接下来要做什么。^†

我忽略了问题中使用的最大深度，因为它无法解释并且在我看来是与极端运行时间（？）相关的修复。此外，根据问题的提示，文件被复制到“平面”结构中（不恢复其原始层次结构）。

最后，我只跳过目录，而其他各种文件类型都有自己的问题（复制链接需要小心）。要仅接受普通文件，请更改unless -d 为if -f.

^†澄清说，确实，不同目录中可能存在具有相同名称的文件。那些应该复制到相同的名称，并在扩展名前加上一个序列号。

为此，我们需要检查名称是否已经存在，并在构建哈希时跟踪重复的名称，因此这将需要更长的时间。那么如何解释重名有一个小难题呢？我使用另一个散列，其中只保留了重复名称^‡，在 arrayrefs 中；这简化并加快了工作的两个部分。

my (%fqn, %dupe_names);
find( sub {
    return if -d;
    (exists $fqn{$_})
        ? push( @{ $dupe_names{$_} }, $File::Find::name )
        : ( $fqn{$_} = $File::Find::name );
}, $source_dir );

Run Code Online (Sandbox Code Playgroud)

令我惊讶的是，即使现在每个项目都在运行测试，但它的运行速度几乎比不关心重复名称的代码慢一点，在分布在庞大层次结构中的 25 万个文件上。

三元运算符中赋值周围的括号是必需的，因为该运算符可能会被赋值（如果最后两个参数是有效的“左值”，就像它们在此处一样），因此需要小心分支内部的赋值。

然后%fqn像帖子的主要部分一样复制后，也复制其他同名文件。我们需要分解文件名，以便在之前添加枚举.ext；我使用核心File::Basename

use File::Basename qw(fileparse);

foreach my $fname (@files) { 
    next if not exists $dupe_names{$fname};  # no dupe (and copied already)
    my $cnt = 1;
    foreach my $fqn (@{$dupe_names{$fname}}) { 
        my ($name, $path, $ext) = fileparse($fqn, qr/\.[^.]*/); 
        copy $fqn, "$copy_to_dir/${name}_$cnt$ext";
            or do { 
                warn "Can't copy $fqn to $copy_to_dir: $!";
                next;
            };
        ++$cnt;
    }
}

Run Code Online (Sandbox Code Playgroud)

（已完成基本测试，但仅此而已）

我可能会使用undef而不是$path上面来表示路径未使用（同时也避免了分配和填充标量），但为了让那些不熟悉模块的 sub 返回内容的人清楚起见，我保留了它。

笔记。 对于具有重复项的文件，将有副本fname.ext、fname_1.ext等。如果您希望将它们全部编入索引，则首先将fname.ext（在目标中，已通过复制的位置%fqn）重命名为fname_1.ext，并将计数器初始化更改为my $cnt = 2;。

^‡请注意，这些文件不一定是相同的文件。

归档时间：	5 年，9 月前
查看次数：	330 次
最近记录：	5 年，8 月前