标签: screen-scraping

抓取网页内容

我正在开发一个项目,我想在后台搜索一个网站的内容,并从该网站获取一些有限的内容.例如,在我的页面中,我有"userid"和"password"字段,通过使用那些我将访问我的邮件并抓取我的收件箱内容并将其显示在我的页面中.

我通过单独使用javascript完成了上述操作.但是,当我单击登录按钮时,我的页面的URL(http://localhost/web/Login.html)将更改为URL(http://mail.in.com/mails/inbox.php?nomail= ......)我被刮掉了.但我在不改变我的网址的情况下废弃了细节.

php curl screen-scraping httprequest web-scraping

Sak*_*vel

2018 09-22

15
推荐指数

3
解决办法

6万
查看次数

使用javascript从亚马逊URL抓取ASIN

假设我有一个像这样的亚马逊产品网址

http://www.amazon.com/Kindle-Wireless-Reading-Display-Generation/dp/B0015T963C/ref=amb_link_86123711_2?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-1&pf_rd_r=0AY9N5GXRYHCADJP5P0V&pf_rd_t=101&pf_rd_p=500528151&pf_rd_i=507846

Run Code Online (Sandbox Code Playgroud)

我怎么能用javascript 刮掉ASIN呢？谢谢!

javascript screen-scraping amazon-ec2

ras*_*t22

2010 01-02

15
推荐指数

4
解决办法

2万
查看次数

Win32.:如何在没有正则表达式的情况下抓取HTML？

Jeff Atwood最近的一篇博客文章说,你不应该使用正则表达式解析HTML - 但是没有提供替代方案.

我想抓搜索搜索结果,提取值:

<div class="used_result_container"> 
   ...
      ...
         <div class="vehicleInfo"> 
            ...
               ...
                  <div class="makemodeltrim">
                     ...
                     <a class="carlink" href="[Url]">[MakeAndModel]</a>
                     ...
                  </div> 
                  <div class="kilometers">[Kilometers]</div> 
                  <div class="price">[Price]</div> 
                  <div class="location">
                     <span class='locationText'>Location:</span>[Location]
                  </div> 
               ...          
            ...
         </div> 
      ...
   ...
</div> 

...and it repeats

Run Code Online (Sandbox Code Playgroud)

你可以看到我想要提取的值,[括在括号中]:

网址
MakeAndModel
公里
价钱
地点

假设我们接受解析HTML的前提:

通常是个坏主意
迅速陷入疯狂

这样做的方法是什么？

假设:

原生Win32
松散的HTML

假设澄清:

原生Win32

.NET/CLR不是本机Win32
Java不是本机Win32
perl,python,ruby不是本机Win32
假设在Visual Studio 2000中C++编译为本机Win32应用程序

本机Win32应用程序可以调用库代码:

复制了源代码
包含函数入口点的DLL
包含COM对象的DLL
包含COM对象的DLL,这些对象是受管.NET对象周围的COM可调用包装器(CCW)

松散的HTML

xml不是松散的HTML
xhtml不是松散的HTML
严格的HTML不是松散的HTML

松散的HTML意味着HTML格式不正确xml(严格的HTML无论如何都不是格式良好的xml),因此不能使用XML解析器.实际上,我假设任何HTML解析器必须在它接受的HTML中慷慨.

澄清#2

假设 …

html regex windows winapi screen-scraping

Ian*_*oyd

2018 10-21

15
推荐指数

3
解决办法

2139
查看次数

点击python中的javascript链接？

我正在使用python的机械化模块导航网站,并且无法点击下一页的javascript链接.我做了一些阅读,人们建议我需要python-spidermonkey和DOMforms.我设法安装它们我不确定实际点击链接的语法.

我可以将页面上的代码识别为:

<a href="javascript:__doPostBack('ctl00$MainContent$gvSearchResults','Page$2')">2</a>

Run Code Online (Sandbox Code Playgroud)

有谁知道如何点击它？或者,如果可能还有其他工具.

谢谢

javascript python screen-scraping mechanize spidermonkey

Los*_*oul

lucky-day

15
推荐指数

1
解决办法

1万
查看次数

在node.js中进行屏幕抓取的最优雅方法是什么？

我正在将一个在node.js中使用大量屏幕抓取的Web应用程序混合在一起.我觉得我在每个角落都在与当前的战斗作斗争.必须有一种更简单的方法来做到这一点.最值得注意的是,有两件事令人恼火:

Cookie传播.我可以从响应头中提取'set-cookie'数组,但执行字符串操作来解析数组中的cookie感觉非常hackish.
重定向以下.我希望每个请求在返回302状态代码时遵循重定向.

我遇到了两件看起来很有用的东西,但我最终无法使用:

http://zombie.labnotes.org/,但它没有HTTPS支持,所以我不能使用它.
http://www.phantomjs.org/,但无法使用它,因为它没有(似乎)与node.js集成.对于我正在做的事情,这也是非常重要的.

是否有任何JavaScript screenscraping-esque库传播cookie,遵循重定向并支持HTTPS？有关如何使这更容易的任何指针？

screen-scraping node.js

Mik*_*ike

2011 03-27

15
推荐指数

1
解决办法

8991
查看次数

在Mechanize请求之间维护cookie

我正在尝试使用Ruby版本的Mechanize从我们正在离开的票证管理系统中提取我的雇主的票据,而不提供API.

问题是,似乎Mechanize没有在post通话和get下面显示的呼叫之间保留cookie :

require 'rubygems'
require 'nokogiri'
require 'mechanize'

@agent = Mechanize.new

page = @agent.post('http://<url>.com/user_session', {
                                            'authenticity_token' => '<token>',
                                            'user_session[login]' => '<login>',
                                            'user_session[password]' => '<password>',
                                            'user_session[remember_me]' => '0',
                                            'commit' => 'Login'
})

page = @agent.get 'http://<url>.com/<organization>/<repo-name>/tickets/1'
puts page.title

Run Code Online (Sandbox Code Playgroud)

user_session是网站登录页面POST的URL,我已经确认这确实get会让我登录.但是从通话中返回的页面是'哎呀,你还没有登录!' 页.

我已经验证了click从post调用返回的页面上的链接是否正常工作,但实际上我无法在没有JavaScript的情况下到达我需要的位置.当然,我已经在浏览器上使用相同的登录成功完成了此操作.

我究竟做错了什么？

ruby screen-scraping mechanize

ada*_*ord

lucky-day

15
推荐指数

1
解决办法

1万
查看次数

使用AJAX分页从所有asp.net页面中刮取数据

我想废弃一个包含地址,电子邮件等用户列表的网页.网页包含分页用户列表,即当我点击第2页链接时页面包含10个用户链接它将通过AJAX加载用户列表第2页并更新列表所以所有分页链接.

网站是在asp扩展.aspx页面开发的,因为我对asp.net一无所知以及asp如何管理分页和AJAX

我使用简单的html dom http://sourceforge.net/projects/simplehtmldom/来废弃包含

对于拥有用户的页面,<=10 我不必模拟AJAX请求,就像用户点击分页链接一样

但对于有分页从其他页面获取数据的页面,我正在模拟后AJAX请求

require 'simple_html_dom.php';

$html = file_get_html('www.example.com/user_list.aspx');

$viewstate = $html->find("#__VIEWSTATE");
$viewstate = $viewstate[0]->attr['value'];

$eventvalidation        = $html->find("#__EVENTVALIDATION");
$eventvalidation        = $eventvalidation[0]->attr['value'];
$number_of_pageinations = 3;

$pageNumberCodes = array(
    'ctl00$cphMainContent$rdpMembers$ctl01$ctl01',
    'ctl00$cphMainContent$rdpMembers$ctl01$ctl02',
    'ctl00$cphMainContent$rdpMembers$ctl01$ctl03'
); // this code is added for each page in POST  as  __EVENTTARGET 

for ($i = 0; $i < $number_of_pageinations; $i++) {
    $options = array(
        CURLOPT_RETURNTRANSFER => true, // return web page
        CURLOPT_HEADER => false, // don't return headers
        CURLOPT_ENCODING => "", // handle …

Run Code Online (Sandbox Code Playgroud)

php asp.net curl screen-scraping web-scraping

Sub*_*axe

2013 04-09

15
推荐指数

1
解决办法

1万
查看次数