小编use*_*236的帖子

如何使用scrapy从多个页面将数据收集到单个数据结构中

我试图从站点中抓取数据.数据被构造为多个对象,每个对象都有一组数据.例如,姓名,年龄和职业的人.

我的问题是这些数据在网站的两个层面上分开.
例如,第一页是名称和年龄列表,其中包含每个人员个人资料页面的链接.
他们的个人资料页面列出了他们

我已经在python中使用scrapy编写了一个蜘蛛,它可以从顶层收集数据并爬过多个分页.
但是,如何从内页收集数据,同时保持链接到适当的对象?

目前,我的输出结构与json一样

   {[name='name',age='age',occupation='occupation'],
   [name='name',age='age',occupation='occupation']} etc
Run Code Online (Sandbox Code Playgroud)

解析功能可以跨越这样的页面吗?

python json web-crawler scrapy

8
推荐指数
1
解决办法
2117
查看次数

标签 统计

json ×1

python ×1

scrapy ×1

web-crawler ×1