小编use*_*957的帖子

Perl 网页抓取

我是 Perl 初学者,我对使用 Perl 进行网页抓取充满热情。花了几个小时后,我编写了下面的代码,用于从yell.com. 该脚本运行良好,我成功收集了一条记录(第 1 页的 1/15)。

我需要你的宝贵建议,关于如何一次性抓取第一页中的所有十家公司,以便我可以转移到其他页面的数据。

use strict;

use Data::Dumper;
use LWP::Simple; # from CPAN
use JSON qw( decode_json ); # from CPAN

use WWW::Mechanize;

my $mech = WWW::Mechanize->new();

my $header = "company_name|Address|Telphone";

open (CH, ">output.csv");

print CH "$header\n";

my $url = "http://www.yell.com/ucs/UcsSearchAction.do?keywords=Engineering+consulatants&location=United+Kingdom&scrambleSeed=13724563&searchType=&M=&bandedclarifyResults=&ssm=1";

$mech->get($url);
my $con = $mech->content();
my $res = "";

############ for company name ##########
if ( $con =~ /<a data-omniture="LIST:COMPANYNAME" href="\/biz\/ross-davy-associates-grimsby-901271213\/" itemprop="name">(.*?)<\/a>/is ) {
  $res = $1;
}
else {
  $res …
Run Code Online (Sandbox Code Playgroud)

perl www-mechanize web-scraping

0
推荐指数
1
解决办法
3444
查看次数

标签 统计

perl ×1

web-scraping ×1

www-mechanize ×1