使用scrapy抓取多个域的最佳方法是什么？

Question

我有大约 10 个我想从中抓取的站点。其中一些是 wordpress 博客，它们遵循相同的 html 结构，尽管具有不同的类。其他的要么是论坛，要么是其他格式的博客。

我喜欢抓取的信息很常见——帖子内容、时间戳、作者、标题和评论。

我的问题是，我是否必须为每个域创建一个单独的蜘蛛？如果没有，我如何创建一个通用蜘蛛，允许我通过从配置文件或类似的东西加载选项来抓取？

我想我可以从一个文件中加载 xpath 表达式，该位置可以通过命令行加载，但是在抓取某些域时似乎有一些困难需要我使用正则表达式select(expression_here).re(regex)而有些则不需要。

Answer 1

您应该使用 BeautifulSoup，特别是如果您使用 Python。它使您能够查找页面中的元素，并使用正则表达式提取文本。