sym*_*mpi -6 python web-crawler scrapy
我正在爬网数千页,需要一个解决方案。每个站点都有自己的html代码-它们都是唯一的站点。没有干净的数据源或API。我希望将捕获的数据加载到某种数据库中。
如果可能的话,有什么想法可以解决吗?
如果我不得不从数千个站点中抓取干净的数据,并且每个站点都有自己的布局,结构等,那么我将实现以下方法(实际上在某些项目中也是如此):
当然,这远远超出了构建拼凑的刮板,并且需要在NLP甚至机器学习方面有丰富的知识和经验。
同样,您也无法期望通过这种方法获得接近100%的准确结果。根据算法的调整和训练方式,这样的系统将跳过一些有效数据(假阴性),或者在实际上不是任何数据的情况下提取数据(假阳性)...或两者混合使用(假肯定和错误否定)。
尽管如此,我希望我的回答能帮助您对情况有所了解。
| 归档时间: |
|
| 查看次数: |
1427 次 |
| 最近记录: |