如何使用scrapy抓取数千个页面？

Question

我正在爬网数千页，需要一个解决方案。每个站点都有自己的html代码-它们都是唯一的站点。没有干净的数据源或API。我希望将捕获的数据加载到某种数据库中。

如果可能的话，有什么想法可以解决吗？

Answer 1

如果我不得不从数千个站点中抓取干净的数据，并且每个站点都有自己的布局，结构等，那么我将实现以下方法（实际上在某些项目中也是如此）：

抓取工具 -一种抓取脚本，用于抓取这些网站及其所有子页面（这是最简单的部分），并将其转换为纯文本
NLP处理 -对纯文本进行一些基本的NLP（自然语言）处理（加标记，词性（POS）标记，命名实体识别（NER））
分类 -一种分类器，可以使用第2步中的数据来确定页面是否包含我们要查找的数据-基于简单规则，或者（如果需要）使用机器学习。那些怀疑包含任何可用数据的页面将被放入下一步：
提取 -基于语法，基于统计或机器学习的提取器，使用POS标签和NER标签（以及其他任何特定领域的因素）来提取我们正在寻找的数据
清理 -步骤4中创建的重复记录的一些基本匹配，也许还有必要丢弃步骤2至4中具有低置信度得分的记录。

当然，这远远超出了构建拼凑的刮板，并且需要在NLP甚至机器学习方面有丰富的知识和经验。

同样，您也无法期望通过这种方法获得接近100％的准确结果。根据算法的调整和训练方式，这样的系统将跳过一些有效数据（假阴性），或者在实际上不是任何数据的情况下提取数据（假阳性）...或两者混合使用（假肯定和错误否定）。

尽管如此，我希望我的回答能帮助您对情况有所了解。