小编Sri*_*ngh的帖子

如何从网站中抓取动态内容?

所以我使用 scrapy 从亚马逊图书部分抓取数据。但不知何故我知道它有一些动态数据。我想知道如何从网站中提取动态数据。到目前为止我已经尝试过以下方法:

import scrapy
from ..items import AmazonsItem

class AmazonSpiderSpider(scrapy.Spider):
    name = 'amazon_spider'
    start_urls = ['https://www.amazon.in/s?k=agatha+christie+books&crid=3MWRDVZPSKVG0&sprefix=agatha%2Caps%2C269&ref=nb_sb_ss_i_1_6']

    def parse(self, response):
        items =  AmazonsItem()
        products_name = response.css('.s-access-title::attr("data-attribute")').extract()
        for product_name in products_name:
            print(product_name)
        next_page = response.css('li.a-last a::attr(href)').get()
            if next_page is not None:
                next_page = response.urljoin(next_page)
                yield scrapy.Request(next_page, callback=self.parse)
Run Code Online (Sandbox Code Playgroud)

现在我使用 SelectorGadget 来选择一个我必须抓取的类,但对于动态网站,它不起作用。

  1. 那么如何抓取具有动态内容的网站呢?
  2. 动态内容和静态内容到底有什么区别?
  3. 如何从网站中提取价格和图像等其他信息?以及如何获得特定的课程,例如价格?
  4. 我怎么知道数据是动态创建的?

python dynamic scrapy

5
推荐指数
2
解决办法
2万
查看次数

标签 统计

dynamic ×1

python ×1

scrapy ×1