goh*_*goh 6 python screen-scraping scrapy
我有大约 10 个我想从中抓取的站点。其中一些是 wordpress 博客,它们遵循相同的 html 结构,尽管具有不同的类。其他的要么是论坛,要么是其他格式的博客。
我喜欢抓取的信息很常见——帖子内容、时间戳、作者、标题和评论。
我的问题是,我是否必须为每个域创建一个单独的蜘蛛?如果没有,我如何创建一个通用蜘蛛,允许我通过从配置文件或类似的东西加载选项来抓取?
我想我可以从一个文件中加载 xpath 表达式,该位置可以通过命令行加载,但是在抓取某些域时似乎有一些困难需要我使用正则表达式select(expression_here).re(regex)而有些则不需要。
| 归档时间: |
|
| 查看次数: |
3476 次 |
| 最近记录: |