标签: screen-scraping

var page = require('webpage').create(), system = require('system'), t, address;

page.settings.userName = 'myusername';
page.settings.password = 'mypassword';

if (system.args.length === 1) {
    console.log('Usage: scrape.js <some URL>');
    phantom.exit();
} else {
    t = Date.now();
    address = system.args[1];
    page.open(address, function (status) {
        if (status !== 'success') {
            console.log('FAIL to load the address');
        } else {
            t = Date.now() - t;
            console.log('Page title is ' + page.evaluate(function () {
                return document.title;
            }));
            console.log('Loading time ' + t + ' msec');
        }
        phantom.exit();
    });
} …

Run Code Online (Sandbox Code Playgroud)

https screen-scraping phantomjs

Sre*_*ag

2015 11-14

103
推荐指数

5
解决办法

7万
查看次数

问候,我一直在想一个新项目的想法,并想知道是否有人知道像Kayak.com这样的服务如何能够如此快速和准确地汇总来自这么多来源的数据.更具体地说,您认为Kayak.com是否正在与API进行交互,还是在抓取/抓取航空公司和酒店网站以满足用户请求？我知道这种事情没有一个正确的答案,但我很想知道其他人认为这是一个很好的方法.如果有帮助,假装你明天要创建kayak.com ......你的数据来自哪里？

architecture api screen-scraping aggregate

Jef*_*eff

lucky-day

81
推荐指数

3
解决办法

8万
查看次数

我如何获取网页的内容并将其保存到字符串变量中

如何使用ASP.NET获取网页内容？我需要编写一个程序来获取网页的HTML并将其存储到字符串变量中.

c# asp.net screen-scraping

kam*_*001

2016 07-29

70
推荐指数

5
解决办法

16万
查看次数

使用Node.js实时抓取网页

使用Node.js刮取网站内容有什么好处.我想构建非常非常快的东西,可以执行kayak.com风格的搜索,其中一个查询被分派到几个不同的站点,结果被删除,并在它们可用时返回给客户端.

我们假设这个脚本应该只提供JSON格式的结果,我们可以直接在浏览器或其他Web应用程序中处理它们.

一些起点:

使用node.js和jquery来抓取网站

有人有什么想法吗？

javascript jquery screen-scraping node.js web-scraping

Avi*_*hai

2012 06-19

65
推荐指数

2
解决办法

4万
查看次数

如何在PHP中实现Web scraper？

什么内置的PHP函数对Web抓取有用？有什么好的资源(网络或打印),以加快使用PHP进行网络抓取的速度？

php screen-scraping

Cha*_*ver

2008 08-29

61
推荐指数

4
解决办法

8万
查看次数

搜索引擎如何找到相关内容？

Google在解析网络时如何找到相关内容？

比如说,谷歌使用PHP原生DOM库来解析内容.他们有什么方法可以在网页上找到最相关的内容？

我的想法是它将搜索所有段落,按每个段落的长度排序,然后从可能的搜索字符串和查询参数中找出每个段落的相关百分比.

假设我们有这个网址:

http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html

Run Code Online (Sandbox Code Playgroud)

现在从该URL我会发现HTML文件名具有高度相关性,所以我会看到该字符串与页面中所有段落的比较接近!

当您共享页面时,一个非常好的例子就是Facebook共享.Facebook快速创建链接并带回图像,内容等.

我认为某种计算方法最好,根据周围元素和元数据计算出相关性的百分比.

是否有关于内容解析的最佳实践的书籍/信息,包括如何从网站获取最佳内容,任何可能被讨论的算法或任何深入的回复？

我想到的一些想法是:

按纯文本长度查找所有段落和顺序
以某种方式找到div容器的宽度和高度,并按(W + H) - @Benoit排序
检查元关键字,标题,描述并检查段落中的相关性
查找所有图像标签,并按主要段落的最大节点和节点长度排序
检查对象数据,例如视频,并从最大段落/内容div中计算节点
找出解析过的前几页的相似之处

我之所以需要这些信息:

我正在建立一个网站,网站管理员向我们发送链接,然后我们列出他们的网页,但我希望网站管理员提交一个链接,然后我去抓取该网页,找到以下信息.

图像(如果适用)
来自最佳文本片段的<255段
将用于我们的搜索引擎的关键字,(Stack Overflow风格)
元数据关键字,描述,所有图像,更改日志(用于审核和管理目的)

希望你们能够理解这不适用于搜索引擎,但搜索引擎处理内容发现的方式与我需要的内容相同.

我不是要求商业机密,我问你的个人方法是什么.

php parsing screen-scraping relevance

Rob*_*itt

2012 07-03

60
推荐指数

3
解决办法

4932
查看次数

标签统计

screen-scraping ×10

api ×2

architecture ×2

javascript ×2

php ×2

python ×2

web-scraping ×2

aggregate ×1

ajax ×1

asp.net ×1

c# ×1

html ×1

https ×1

jquery ×1

node.js ×1

parsing ×1

phantomjs ×1

piracy-prevention ×1

relevance ×1

scrapy ×1

标签 统计

标签统计