小编Soh*_*ape的帖子

对具有不同结构的多个网站进行Web爬网

我想在具有不同结构的多个网站上进行网络爬网以查找特定数据.但是,我有一些关键字可以帮助我找到我想要的东西.为了更清楚,我想从大学的网站上提取一份教授名单,并将其循环到一个给定的大学名单上.这里的关键字可以是名字前面的"教授"或"教授"或"博士"字样,也可以是姓名后面的电子邮件.但是,处理每个网站的不同html结构有点挑战.

你的建议是什么？

html web-crawler scrapy web-scraping jsoup

Soh*_*ape

lucky-day

2
推荐指数

1
解决办法

1906
查看次数