如何使用无限滚动方式抓取网页,其中响应为html / text而不是json。
我的第一次尝试是使用Rule和LinkExtractor,它使我获得了约80%的工作网址
class JobsetSpider(CrawlSpider):
name = 'test'
allowed_domains = ['jobs.et']
start_urls = ['https://jobs.et/jobs/']
rules = (
Rule(LinkExtractor(allow='https://jobs.et/job/\d+/'), callback='parse_link'),
Rule(LinkExtractor(), follow=True),
)
def parse_link(self, response):
yield {
'url': response.url
}
Run Code Online (Sandbox Code Playgroud)
我的第二次尝试是使用SCRAPING INFINITE SCROLLING PAGES中的示例,但是响应是在text / html中而不是json中。
单击“加载更多”按钮后,我可以从Chrome开发者工具网络上看到请求的网址
https://jobs.et/jobs/?searchId=1509738711.5142&action=search&page=2
Run Code Online (Sandbox Code Playgroud)
而“页面”数增加。
我的问题是