小编use*_*957的帖子

Perl 网页抓取

我是 Perl 初学者，我对使用 Perl 进行网页抓取充满热情。花了几个小时后，我编写了下面的代码，用于从yell.com. 该脚本运行良好，我成功收集了一条记录（第 1 页的 1/15）。

我需要你的宝贵建议，关于如何一次性抓取第一页中的所有十家公司，以便我可以转移到其他页面的数据。

use strict;

use Data::Dumper;
use LWP::Simple; # from CPAN
use JSON qw( decode_json ); # from CPAN

use WWW::Mechanize;

my $mech = WWW::Mechanize->new();

my $header = "company_name|Address|Telphone";

open (CH, ">output.csv");

print CH "$header\n";

my $url = "http://www.yell.com/ucs/UcsSearchAction.do?keywords=Engineering+consulatants&location=United+Kingdom&scrambleSeed=13724563&searchType=&M=&bandedclarifyResults=&ssm=1";

$mech->get($url);
my $con = $mech->content();
my $res = "";

############ for company name ##########
if ( $con =~ /<a data-omniture="LIST:COMPANYNAME" href="\/biz\/ross-davy-associates-grimsby-901271213\/" itemprop="name">(.*?)<\/a>/is ) {
  $res = $1;
}
else {
  $res …

Run Code Online (Sandbox Code Playgroud)

perl www-mechanize web-scraping

use*_*957

2013 08-03

0
推荐指数

1
解决办法

3444
查看次数

标签统计

perl ×1

web-scraping ×1

www-mechanize ×1

Perl 网页抓取

标签 统计

小编use_957的帖子

标签统计