使用scrapy抓取多个域的最佳方法是什么?

goh*_*goh 6 python screen-scraping scrapy

我有大约 10 个我想从中抓取的站点。其中一些是 wordpress 博客,它们遵循相同的 html 结构,尽管具有不同的类。其他的要么是论坛,要么是其他格式的博客。

我喜欢抓取的信息很常见——帖子内容、时间戳、作者、标题和评论。

我的问题是,我是否必须为每个域创建一个单独的蜘蛛?如果没有,我如何创建一个通用蜘蛛,允许我通过从配置文件或类似的东西加载选项来抓取?

我想我可以从一个文件中加载 xpath 表达式,该位置可以通过命令行加载,但是在抓取某些域时似乎有一些困难需要我使用正则表达式select(expression_here).re(regex)而有些则不需要。

Hen*_*hiu 0

您应该使用 BeautifulSoup,特别是如果您使用 Python。它使您能够查找页面中的元素,并使用正则表达式提取文本。