标签: web-scraping

如何从网页中提取文本内容？

我正在开发一个java应用程序,它可以从不同的网页中获取文本信息,并将其汇总成一个页面.例如,假设我在不同的网页上有新闻,如印度教,印度时报,政治家等.现在我的应用程序应该从这些页面的每一个中提取重要点,并将它们作为单个新闻组合在一起.应用程序基于Web内容挖掘的概念.作为该领域的初学者,我无法理解从哪里开始我已经通过研究论文解释了噪声去除作为建立这个应用程序的第一步.

所以,如果给我一个新闻网页,第一步是从页面中提取主要新闻,不包括超链接,广告,无用图像等.我的问题是我该怎么做？请给我一些很好的教程,解释使用Web内容挖掘实现这种应用程序.或者至少给我一些提示如何实现它？

java text-mining web-scraping web-mining web

dar*_*dow

2012 02-10

0
推荐指数

1
解决办法

2827
查看次数

Java程序或Perl脚本,用于从网页上复制文本

特别是我想知道在java(首选)或perl是否可以输入一个网址并让它从该页面复制文本？具体来说,我希望能够在谷歌上搜索一些东西,只需复制粘贴出现的前5个链接.不做SEO或任何它只是为我正在努力的程序.

java perl copy-paste web-scraping

CMO*_*MOS

lucky-day

0
推荐指数

1
解决办法

5375
查看次数

Webscraper不起作用

我几乎遵循了一个教程,我希望我的刮刀刮掉包含每个警察局信息的特定页面的所有链接,但它几乎返回整个网站.

from urllib import urlopen
import re

f = urlopen("http://www.emergencyassistanceuk.co.uk/list-of-uk-police-stations.html").read()

b = re.compile('<span class="listlink-police"><a href="(.*)">')
a = re.findall(b, f)

listiterator = []
listiterator[:] = range(0,16)

for i in listiterator:
    print a 
    print "\n"

f.close()

Run Code Online (Sandbox Code Playgroud)

python regex web-scraping

Dam*_*cir

lucky-day

0
推荐指数

1
解决办法

973
查看次数

从简单网站抓取数据 - 将"发布"更改为"获取"

我访问了这个网站:http: //www.avcodes.co.uk/airlcodesearch.asp

并且,选择了最后一个选项:

Select a letter for ICAO Codes: and chose "B"

Run Code Online (Sandbox Code Playgroud)

然后点击 Submit.

我使用Firefox中的Tamper Data和Live HTTP Headers监控进度.

并且,一切都很好..并且实现相同效果所需的直接URL是:

http://www.avcodes.co.uk/airllistres.asp?statuslst=Y&iataairllst=&icaoairllst=B&B1=Submit

但是,使用上述URL时,不会返回数据.

我缺少什么,如何找到正确的URL.

这个练习的目的是一旦我知道URL ..我将使用python脚本循环到A到Z并获取所有页面的内容.

请帮忙.

python http-get http-post web-scraping

ihi*_*wer

lucky-day

0
推荐指数

1
解决办法

1490
查看次数

如何使用PHP抓取网站

我使用以下代码获取网站的内容

function get_content($url){
    $content = @file_get_contents($url);
    if( empty($content) ){
      $content = get_url_contents($url);
    }
    return $content;
}

function get_url_contents($url){
    $crl = curl_init();
    $timeout = 90;
    curl_setopt ($crl, CURLOPT_URL,$url);
    curl_setopt ($crl, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt ($crl, CURLOPT_CONNECTTIMEOUT, $timeout);
    $ret = curl_exec($crl);
    curl_close($crl);
    return $ret;
}

$url = "http://www.site.com";
$html = get_content($url);
echo $html;

Run Code Online (Sandbox Code Playgroud)

一切都很好,但我需要得到所有我的div元素或页面标题或我的所有图像.

我怎样才能做到这一点？

谢谢

php web-scraping

Pau*_*des

lucky-day

0
推荐指数

1
解决办法

176
查看次数

不能使用perl WWW :: Mechanize来勾选复选框

我正在使用perl WWW :: Mechanize制作一个webscraper.我的问题是我正在抓取的网站使用javascript有点太多了.我正在使用凭据登录,然后使用遍历自定义搜索$mech->follow_link(url).

问题从这里开始.我登陆到一个页面,我必须从启用了javascript的下拉列表中选择一个复选框和一个radiobutton.我被困在这一点上.

html的部分如下.当我使用时$mech->tick('cs-MajorIndustryGroup'),我收到一个错误

Can't call method "find_input" on an undefined value

Run Code Online (Sandbox Code Playgroud)

javascript perl mechanize web-scraping

作者

2012 09-30

0
推荐指数

1
解决办法

893
查看次数

PHP:从网站提取HTML数据

我想从网站上提取NAME,ADDRESS和EMAIL

http://agentquery.com/agent.aspx?agentid=13

我怎么能在PHP中使用file_get_contents()来做到这一点

例如

$abc = file_get_content("http://agentquery.com/agent.aspx?agentid=13");

现在我如何从中提取NAME,EMAIL和ADDRESS？

php web-scraping

Saa*_*ram

2013 02-27

0
推荐指数

1
解决办法

2万
查看次数

如何将JSON字典转换为python字典？

我有一个只包含JSON字典的JSON文件(例如:http://www.collegeswimming.com/results/17172/event/4/).Python中是否有任何模块可以轻松地将其转换为我可以在Python中使用的对象？

python json web-scraping python-2.7

Tra*_*vis

lucky-day

0
推荐指数

2
解决办法

237
查看次数

html嵌套？使用谷歌fetchurl

我正试图从以下网页中获取一个表格

http://www.bloomberg.com/markets/companies/country/hong-kong/

我有一些示例代码,由Phil Bozak友情提供:

使用Google脚本从html中获取表格

它抓住了这个网站的表格:

http://www.airchina.com.cn/www/en/html/index/ir/traffic/

从Phil的代码中可以看出,代码中有很多"getElement()".如果我看一下国航网站的html代码.看起来它嵌套了四次？这就是为什么字符串.getElement？

现在我看一下Bloomberg页面的源代码,用"div"加载它...

问题是有人可以告诉我如何从Bloomberg页面中获取表格吗？

只是对该理论的简要解释也是有用的.谢谢一堆.

html dom web-scraping google-apps-script

jas*_*son

2017 06-23

0
推荐指数

1
解决办法

1133
查看次数

限制python搜索的文本区域

我想搜索并计算字符串在webscrape中出现的次数.但是我想在webscrape中搜索x和y.

在下面的例子webscrape中,任何人都可以告诉我最简单的方法来计算MAIN FISHERMAN和SECONDARY FISHERMAN之间的SEA BASS.

<p style="color: #555555;
    font-family: Arial,Helvetica,sans-serif;
    font-size: 12px;
    line-height: 18px;">June 21, 2013  By FISH PPL Admin  </small>

</div>
<!-- Post Body Copy -->

<div class="post-bodycopy clearfix"><p>MAIN FISHERMAN &#8211; </p>
<p><strong>CHAMP</strong> &#8211; Pedro 00777<br />
BAIT &#8211; LOCATION1 &#8211; 2:30 &#8211; SEA BASS (3 LBS 11/4)<br />
MULTI – LOCATION2 &#8211; 7:30 &#8211; COD (3 LBS 13/8)<br />
LURE – LOCATION5 &#8211; 3:20 &#8211; RUDD (2 LBS 6/1)</p>
<p>JOE BLOGGS <a href="url">url</a><br />
BAIT &#8211; LOCATION4 &#8211; …

Run Code Online (Sandbox Code Playgroud)

python regex urllib web-scraping python-2.7

AEA*_*AEA

2015 10-04

0
推荐指数

1
解决办法

69
查看次数