确定机器人是否正在抓取公用事业账单内容以及如何阻止它

Mik*_*lls 4 website

我为当地政府工作,该政府负责为用水和垃圾收集收费。我今天接到一位客户打来的电话,说一家“纽约公司”打电话给他,要求提供他的客户号码和密码,以便他们访问他的在线帐户,以便他们可以从网站上“抓取”他的用水量。他们显然是出于某种他不记得的原因从几间公寓收集了这些信息。当然,这引起了我的注意,我告诉他不要向他们提供这些信息。我还告诉他,如果他们回电告诉这家公司,他们可以在需要时直接与我们联系以获取此信息。

现在,如果我们的一位客户接到电话,我认为可以安全地假设其他人接到了相同或类似的电话,他们可能已经或可能没有提供此信息。如何检查我们的日志以查看是否有机器人访问我们的网站并抓取我们的数据?我也觉得我们应该阻止那个机器人并阻止进一步的尝试。

注意:存储在网络服务器上的唯一信息是客户的姓名和地址、用水量和账单费用以及应付总额。他们也可以支付账单。我们不会在线存储任何帐户信息。所以总的来说,网络服务器上的信息可以被视为公共信息(尽管是适当的渠道)。

Mik*_*ott 9

无法检测或阻止仅抓取少量页面的编写良好的机器人——它的行为可能与真正的用户无法区分。

  • 好吧 - 我会原谅你的笑 - 如果用户希望他们的信息被保密,你只需要希望他们将他们的信息保密。假设您有联系客户的正常途径,您可以通过该途径警告他们这些电话。 (2认同)

mfi*_*nni 6

  1. 您可以阻止或限制访问多个帐户的任何单个源 IP。如上所述,这必须能够知道正在访问的不仅仅是帐户,而且实施起来可能并非易事。当然,这也可能阻止将 NAT 连接的互联网作为“实用程序”的公寓大楼中的租户。

  2. 您可以实施验证码。

  • 我也想说“验证码”,但这让我很痛苦。这是在惩罚网站的合法用户。 (7认同)
  • 如果他们有时间给每个人打电话,我敢打赌他们有时间处理 CAPTCHA。 (2认同)
  • 您可以使 CAPTCHA 显示为一种速率限制工具......即“如果同一 IP 地址在 ax 秒范围内对 <您要保护的资源> 发出多个请求,则显示 CAPTCHA”。 (2认同)