可以检测页面抓取吗?

Sla*_*248 3 html java web-scraping

所以我刚创建了一个为我进行页面抓取的应用程序,然后运行它.它工作正常.我想知道是否有人能够弄清楚代码是否被页面抓取,无论他们是否为此目的编写代码?

我在java中编写了代码,它只是检查一行html代码.

在我将更多代码添加到此程序之前,我想我会对此有所了解.我的意思是它很有用,而且它几乎就像一个黑客.

看起来像最糟糕的情况,因为这个页面刮板不是太糟糕,因为我可以稍后使用另一个设备,IP将是不同的.也可能在一个月内无关紧要.该网站目前似乎正在获得相当多的网络流量.编辑页面的人现在可能已经睡着了,此时它实际上还没有完成任何事情,所以这可能会被忽视.

感谢您的快速回复.我想它可能已被忽视了.我所做的只是复制一个标题,所以只是文字.我想这可能类似于浏览器复制粘贴的工作原理.该页面刚刚在今天早上编辑,包括我试图获得的文字.如果他们确实注意到了什么,他们还没有宣布,所以一切都很好.

Dan*_*ons 6

这是一个黑客.:)

没有办法以编程方式确定是否正在抓取页面.但是,如果您的刮刀变得流行或者您使用它太重,那么很有可能在统计上检测刮削.如果您看到一个IP每天在同一时间抓取相同的页面,您可以做出有根据的猜测.如果您在其他计时器上看到请求,则相同

如果可以的话,你应该尝试遵守robots.txt文件,并且自己限制,要有礼貌.


Chr*_*rle 5

作为一个系统管理员自己,是的,我可能会注意到,但只能根据客户端的行为.如果客户有一个奇怪的用户代理,我会怀疑.如果客户浏览网站的速度过快或间隔时间非常短,我会怀疑.如果从未请求某些支持文件(favicon.ico,CSS和JS文件中的各种链接),我会怀疑.如果客户端访问奇数(不可直接访问)的页面,我会怀疑.

然后,我必须真正地看着我的日志.本周Slashdot特别有趣,所以我可能不会注意到.