标签: screen-scraping

如何防止网站抓取?

我有一个相当大的音乐网站,有一个大型的艺术家数据库.我一直在注意其他音乐网站抓取我们网站的数据(我在这里和那里输入虚拟艺术家名称然后谷歌搜索它们).

如何防止屏幕抓取?它甚至可能吗?

html architecture screen-scraping piracy-prevention

287
推荐指数
16
解决办法
8万
查看次数

使用Python进行Web抓取

我想从网站上获取每日日出/日落时间.是否可以使用Python抓取Web内容?使用的模块是什么?有没有可用的教程?

python screen-scraping

180
推荐指数
5
解决办法
19万
查看次数

scrapy可以用来从使用AJAX的网站上抓取动态内容吗?

我最近一直在学习Python,并且正在努力构建一个web-scraper.它根本没什么特别的; 它的唯一目的是从博彩网站获取数据并将这些数据放入Excel.

大多数问题都是可以解决的,而且我有一点点混乱.但是,我在一个问题上遇到了巨大的障碍.如果网站加载了马匹表并列出了当前的投注价格,则此信息不在任何源文件中.线索是这些数据有时是有效的,数字显然是从某个远程服务器更新的.我的电脑上的HTML只是一个漏洞,他们的服务器正在推动我需要的所有有趣的数据.

现在我对动态网页内容的体验很低,所以这件事让我无法理解.

我认为Java或Javascript是一个关键,这经常会弹出.

刮刀只是一种赔率比较引擎.有些网站有API,但我需要这些API.我正在使用Python 2.7的scrapy库

如果这个问题太开放,我真的很抱歉.简而言之,我的问题是:如何使用scrapy来抓取这些动态数据,以便我可以使用它?这样我就可以实时抓取这个赔率数据?

javascript python ajax screen-scraping scrapy

137
推荐指数
5
解决办法
11万
查看次数

从网站上抓取数据的最佳方法是什么?

我需要从网站中提取内容,但应用程序不提供任何应用程序编程接口或其他机制来以编程方式访问该数据.

我找到了一个名为Import.io的有用的第三方工具,它提供了用于抓取网页和构建数据集的点击操作功能,唯一的一件事就是我想在本地保存我的数据,而且我不想订阅任何订阅计划.

该公司使用什么样的技术来抓取网页并构建他们的数据集?我发现一些网络抓取框架pjscrapeScrapy可以提供这样的功能

api screen-scraping web-scraping

106
推荐指数
2
解决办法
15万
查看次数

PhantomJS无法打开HTTPS站点

我正在使用以下基于loadspeed.js示例的代码打开一个https://站点,该站点也需要http服务器身份验证.

var page = require('webpage').create(), system = require('system'), t, address;

page.settings.userName = 'myusername';
page.settings.password = 'mypassword';

if (system.args.length === 1) {
    console.log('Usage: scrape.js <some URL>');
    phantom.exit();
} else {
    t = Date.now();
    address = system.args[1];
    page.open(address, function (status) {
        if (status !== 'success') {
            console.log('FAIL to load the address');
        } else {
            t = Date.now() - t;
            console.log('Page title is ' + page.evaluate(function () {
                return document.title;
            }));
            console.log('Loading time ' + t + ' msec');
        }
        phantom.exit();
    });
} …
Run Code Online (Sandbox Code Playgroud)

https screen-scraping phantomjs

103
推荐指数
5
解决办法
7万
查看次数

像kayak.com这样的网站如何汇总内容?

问候,我一直在想一个新项目的想法,并想知道是否有人知道像Kayak.com这样的服务如何能够如此快速和准确地汇总来自这么多来源的数据.更具体地说,您认为Kayak.com是否正在与API进行交互,还是在抓取/抓取航空公司和酒店网站以满足用户请求?我知道这种事情没有一个正确的答案,但我很想知道其他人认为这是一个很好的方法.如果有帮助,假装你明天要创建kayak.com ......你的数据来自哪里?

architecture api screen-scraping aggregate

81
推荐指数
3
解决办法
8万
查看次数

我如何获取网页的内容并将其保存到字符串变量中

如何使用ASP.NET获取网页内容?我需要编写一个程序来获取网页的HTML并将其存储到字符串变量中.

c# asp.net screen-scraping

70
推荐指数
5
解决办法
16万
查看次数

使用Node.js实时抓取网页

使用Node.js刮取网站内容有什么好处.我想构建非常非常快的东西,可以执行kayak.com风格的搜索,其中一个查询被分派到几个不同的站点,结果被删除,并在它们可用时返回给客户端.

我们假设这个脚本应该只提供JSON格式的结果,我们可以直接在浏览器或其他Web应用程序中处理它们.

一些起点:

使用node.js和jquery来抓取网站

有人有什么想法吗?

javascript jquery screen-scraping node.js web-scraping

65
推荐指数
2
解决办法
4万
查看次数

如何在PHP中实现Web scraper?

什么内置的PHP函数对Web抓取有用?有什么好的资源(网络或打印),以加快使用PHP进行网络抓取的速度?

php screen-scraping

61
推荐指数
4
解决办法
8万
查看次数

搜索引擎如何找到相关内容?

Google在解析网络时如何找到相关内容?

比如说,谷歌使用PHP原生DOM库来解析内容.他们有什么方法可以在网页上找到最相关的内容?

我的想法是它将搜索所有段落,按每个段落的长度排序,然后从可能的搜索字符串和查询参数中找出每个段落的相关百分比.

假设我们有这个网址:

http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html
Run Code Online (Sandbox Code Playgroud)

现在从该URL我会发现HTML文件名具有高度相关性,所以我会看到该字符串与页面中所有段落的比较接近!

当您共享页面时,一个非常好的例子就是Facebook共享.Facebook快速创建链接并带回图像,内容等.

我认为某种计算方法最好,根据周围元素和元数据计算出相关性的百分比.

是否有关于内容解析的最佳实践的书籍/信息,包括如何从网站获取最佳内容,任何可能被讨论的算法或任何深入的回复?


我想到的一些想法是:

  • 按纯文本长度查找所有段落和顺序
  • 以某种方式找到div容器的宽度和高度,并按(W + H) - @Benoit排序
  • 检查元关键字,标题,描述并检查段落中的相关性
  • 查找所有图像标签,并按主要段落的最大节点和节点长度排序
  • 检查对象数据,例如视频,并从最大段落/内容div中计算节点
  • 找出解析过的前几页的相似之处

我之所以需要这些信息:

我正在建立一个网站,网站管理员向我们发送链接,然后我们列出他们的网页,但我希望网站管理员提交一个链接,然后我去抓取该网页,找到以下信息.

  • 图像(如果适用)
  • 来自最佳文本片段的<255段
  • 将用于我们的搜索引擎的关键字,(Stack Overflow风格)
  • 元数据关键字,描述,所有图像,更改日志(用于审核和管理目的)

希望你们能够理解这不适用于搜索引擎,但搜索引擎处理内容发现的方式与我需要的内容相同.

我不是要求商业机密,我问你的个人方法是什么.

php parsing screen-scraping relevance

60
推荐指数
3
解决办法
4932
查看次数