如何使用Import.io抓取多个页面

Question

如何使用Import.io抓取多个页面

Hua*_*der 5 web-scraping scrape import.io

我试图从网站http://www.cityoflondon.gov.uk/events/中删除一个事件列表,但是当使用import.io废弃它时,我只能提取第一页.

我怎样才能一次提取所有页面？

Answer 1

您可以通过爬网程序或使用批量提取来提取此站点的数据。上面的网站使用了一种非常简单的分页形式：

http://www.cityoflondon.gov.uk/events/Pages/default.aspx    
http://www.cityoflondon.gov.uk/events/Pages/default.aspx?start1=13    
http://www.cityoflondon.gov.uk/events/Pages/default.aspx?start1=49    
http://www.cityoflondon.gov.uk/events/Pages/default.aspx?start1=25    
http://www.cityoflondon.gov.uk/events/Pages/default.aspx?start1=37

Run Code Online (Sandbox Code Playgroud)

这是我为上述 URL 创建的数据集，其中应包含所有相关信息。

319aebad-88ea-4053-a649-2087011ce041

如果您对单个网站有其他疑问，请联系 support@import.io

谢谢！梅格

归档时间：	10 年，5 月前
查看次数：	958 次
最近记录：	7 年，7 月前