Vio*_*Geo 5 scrapy certificate-error
我正在使用带有 LinkExtractor 对象的 CrawlSpider 来抓取主页中的下一页和其他链接。我有两个链接提取器;一个用于抓取下一页,另一个用于抓取一些链接事件(参见下面的蜘蛛代码)。
\n\n我的第二个 linkExtractor 可以工作(事件链接),但第一个不行。
\n当我启动蜘蛛时,我的堆栈跟踪中出现了此错误:
[scrapy] WARNING: Remote certificate is not valid for hostname "marathons.ahotu.fr"; u\'ssl390453.cloudflaressl.com\'!=u\'marathons.ahotu.fr\'\nRun Code Online (Sandbox Code Playgroud)\n\n实际上我是 Python 和 Scrapy 的新手,所以我的问题是:
\n\n这是我的蜘蛛代码:
\n\nimport scrapy\nimport os\nimport re\nfrom scrapy.spiders import CrawlSpider, Rule\nfrom scrapy.linkextractors import LinkExtractor\nfrom scrapy.selector import Selector\n\nif os.path.isfile(\'ListeCAP_Marathons_ahotu.csv\'):\n reecritureFichier = open(\'ListeCAP_Marathons_ahotu.csv\', \'w\')\n reecritureFichier.truncate()\n reecritureFichier.close()\n\nclass MySpider(CrawlSpider):\n name = \'ListeCAP_Marathons_ahotu\'\n start_urls = [\'https://marathons.ahotu.fr/calendrier\']\n\n rules = (\n # LINKEXTRACTOR N\xc2\xb01 = NEXT PAGES\n Rule(LinkExtractor(allow=(\'https://marathons.ahotu.fr/calendrier?page=[0-9]{1,100}#list-top\',),),),\n\n # LINKEXTRACTOR N\xc2\xb02 = EVENTS LINKS\n Rule(LinkExtractor(allow=(\'https://marathons.ahotu.fr/evenement/.+\',),),follow=True,callback=\'parse_item\'), \n ) \n\n def parse_item(self, response): \n selector = Selector(response)\n yield{\n \'nom_even\':selector.xpath(\'/html/body/div[2]/div[2]/h1/span[@itemprop="name"]/text()\').extract(),\n } \n\n print(\'--------------------> NOM DE L\\\'EVENEMENT :\', selector.xpath(\'//*[@id="jog"]/div[2]/section/article/header/h1/text()\').extract())\nRun Code Online (Sandbox Code Playgroud)\n\n(我正在使用 Scrapy 1.4.0 和 Twisted-17.9.0)
\n