我正在开发一个java应用程序,它可以从不同的网页中获取文本信息,并将其汇总成一个页面.例如,假设我在不同的网页上有新闻,如印度教,印度时报,政治家等.现在我的应用程序应该从这些页面的每一个中提取重要点,并将它们作为单个新闻组合在一起.应用程序基于Web内容挖掘的概念.作为该领域的初学者,我无法理解从哪里开始我已经通过研究论文解释了噪声去除作为建立这个应用程序的第一步.
所以,如果给我一个新闻网页,第一步是从页面中提取主要新闻,不包括超链接,广告,无用图像等.我的问题是我该怎么做?请给我一些很好的教程,解释使用Web内容挖掘实现这种应用程序.或者至少给我一些提示如何实现它?
特别是我想知道在java(首选)或perl是否可以输入一个网址并让它从该页面复制文本?具体来说,我希望能够在谷歌上搜索一些东西,只需复制粘贴出现的前5个链接.不做SEO或任何它只是为我正在努力的程序.
我几乎遵循了一个教程,我希望我的刮刀刮掉包含每个警察局信息的特定页面的所有链接,但它几乎返回整个网站.
from urllib import urlopen
import re
f = urlopen("http://www.emergencyassistanceuk.co.uk/list-of-uk-police-stations.html").read()
b = re.compile('<span class="listlink-police"><a href="(.*)">')
a = re.findall(b, f)
listiterator = []
listiterator[:] = range(0,16)
for i in listiterator:
print a
print "\n"
f.close()
Run Code Online (Sandbox Code Playgroud) 我访问了这个网站:http: //www.avcodes.co.uk/airlcodesearch.asp
并且,选择了最后一个选项:
Select a letter for ICAO Codes: and chose "B"
Run Code Online (Sandbox Code Playgroud)
然后点击 Submit.
我使用Firefox中的Tamper Data和Live HTTP Headers监控进度.
并且,一切都很好..并且实现相同效果所需的直接URL是:
http://www.avcodes.co.uk/airllistres.asp?statuslst=Y&iataairllst=&icaoairllst=B&B1=Submit
但是,使用上述URL时,不会返回数据.
我缺少什么,如何找到正确的URL.
这个练习的目的是一旦我知道URL ..我将使用python脚本循环到A到Z并获取所有页面的内容.
请帮忙.
我使用以下代码获取网站的内容
function get_content($url){
$content = @file_get_contents($url);
if( empty($content) ){
$content = get_url_contents($url);
}
return $content;
}
function get_url_contents($url){
$crl = curl_init();
$timeout = 90;
curl_setopt ($crl, CURLOPT_URL,$url);
curl_setopt ($crl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($crl, CURLOPT_CONNECTTIMEOUT, $timeout);
$ret = curl_exec($crl);
curl_close($crl);
return $ret;
}
$url = "http://www.site.com";
$html = get_content($url);
echo $html;
Run Code Online (Sandbox Code Playgroud)
一切都很好,但我需要得到所有我的div元素或页面标题或我的所有图像.
我怎样才能做到这一点?
谢谢
我正在使用perl WWW :: Mechanize制作一个webscraper.我的问题是我正在抓取的网站使用javascript有点太多了.我正在使用凭据登录,然后使用遍历自定义搜索$mech->follow_link(url).
问题从这里开始.我登陆到一个页面,我必须从启用了javascript的下拉列表中选择一个复选框和一个radiobutton.我被困在这一点上.
html的部分如下.当我使用时$mech->tick('cs-MajorIndustryGroup'),我收到一个错误
Can't call method "find_input" on an undefined value
Run Code Online (Sandbox Code Playgroud) 我想从网站上提取NAME,ADDRESS和EMAIL
http://agentquery.com/agent.aspx?agentid=13
我怎么能在PHP中使用file_get_contents()来做到这一点
例如
$abc = file_get_content("http://agentquery.com/agent.aspx?agentid=13");
现在我如何从中提取NAME,EMAIL和ADDRESS?
我有一个只包含JSON字典的JSON文件(例如:http://www.collegeswimming.com/results/17172/event/4/).Python中是否有任何模块可以轻松地将其转换为我可以在Python中使用的对象?
我正试图从以下网页中获取一个表格
http://www.bloomberg.com/markets/companies/country/hong-kong/
我有一些示例代码,由Phil Bozak友情提供:
它抓住了这个网站的表格:
http://www.airchina.com.cn/www/en/html/index/ir/traffic/
从Phil的代码中可以看出,代码中有很多"getElement()".如果我看一下国航网站的html代码.看起来它嵌套了四次?这就是为什么字符串.getElement?
现在我看一下Bloomberg页面的源代码,用"div"加载它...
问题是有人可以告诉我如何从Bloomberg页面中获取表格吗?
只是对该理论的简要解释也是有用的.谢谢一堆.
我想搜索并计算字符串在webscrape中出现的次数.但是我想在webscrape中搜索x和y.
在下面的例子webscrape中,任何人都可以告诉我最简单的方法来计算MAIN FISHERMAN和SECONDARY FISHERMAN之间的SEA BASS.
<p style="color: #555555;
font-family: Arial,Helvetica,sans-serif;
font-size: 12px;
line-height: 18px;">June 21, 2013 By FISH PPL Admin </small>
</div>
<!-- Post Body Copy -->
<div class="post-bodycopy clearfix"><p>MAIN FISHERMAN – </p>
<p><strong>CHAMP</strong> – Pedro 00777<br />
BAIT – LOCATION1 – 2:30 – SEA BASS (3 LBS 11/4)<br />
MULTI – LOCATION2 – 7:30 – COD (3 LBS 13/8)<br />
LURE – LOCATION5 – 3:20 – RUDD (2 LBS 6/1)</p>
<p>JOE BLOGGS <a href="url">url</a><br />
BAIT – LOCATION4 – …Run Code Online (Sandbox Code Playgroud) web-scraping ×10
python ×4
java ×2
perl ×2
php ×2
python-2.7 ×2
regex ×2
copy-paste ×1
dom ×1
html ×1
http-get ×1
http-post ×1
javascript ×1
json ×1
mechanize ×1
text-mining ×1
urllib ×1
web ×1
web-mining ×1