自动生成HTTP屏幕抓取Java代码

Dón*_*nal 6 java selenium screen-scraping http

我需要屏蔽来自网站的一些数据,因为它不能通过他们的网络服务获得.当我以前需要这样做时,我自己编写了Java代码,使用Apache的HTTP客户端库来进行相关的HTTP调用以下载数据.我通过在浏览器中点击相关屏幕,同时使用Charles Web代理记录相应的HTTP调用,找出了我需要进行的相关调用.

您可以想象这是一个相当繁琐的过程,如果有一个工具可以实际生成与浏览器会话相对应的Java代码,那我就开始思考了.我希望生成的代码不会像手动编写的代码一样漂亮,但我可以随后整理它.有谁知道这样的工具是否存在?Selenium是我所知的一种可能性,虽然我不确定它是否支持这个确切的用例.

谢谢,唐

Mar*_*ski 2

您应该看一下HtmlUnit - 它是为测试网站而设计的,但对于屏幕抓取和浏览多个页面非常有用。它负责处理 cookie 和其他与会话相关的内容。