从URL列表中删除仅限顶级目录的URL?

use*_*684 3 url perl

我有一个问题,我在研究方面遇到了麻烦,因为我不知道如何在搜索引擎上正确地问它.

我有一个URL列表.我想有一些自动方式(首选Perl)遍历列表并删除所有顶级目录的URL.

例如,我可能有这个列表:

http://www.example.com/hello.html
http://www.foo.com/this/thingrighthere.html

在这种情况下,我想从我的列表中删除example.com,因为它只是顶级目录或他们引用顶级目录中的文件.

我正在试图弄清楚如何做到这一点.我的第一个想法是,计算正斜杠,如果有两个以上,则从列表中删除URL.但是你有正斜杠,所以这是行不通的.

任何想法或想法将不胜感激.

aqu*_*nas 5

像这样的东西:

use URI::Split qw( uri_split ); 
my $url = "http://www.foo.com/this/thingrighthere.html";
my ($scheme, $auth, $path, $query, $frag)  = uri_split( $url );
if (($path =~ tr/\///) > 1 ) {
    print "I care about this $url";
}
Run Code Online (Sandbox Code Playgroud)

http://metacpan.org/pod/URI::Split