我想在具有不同结构的多个网站上进行网络爬网以查找特定数据.但是,我有一些关键字可以帮助我找到我想要的东西.为了更清楚,我想从大学的网站上提取一份教授名单,并将其循环到一个给定的大学名单上.这里的关键字可以是名字前面的"教授"或"教授"或"博士"字样,也可以是姓名后面的电子邮件.但是,处理每个网站的不同html结构有点挑战.
你的建议是什么?
html web-crawler scrapy web-scraping jsoup
html ×1
jsoup ×1
scrapy ×1
web-crawler ×1
web-scraping ×1