Scrapy - 警告：远程证书对于主机名无效

Question

Scrapy - 警告：远程证书对于主机名无效

我正在使用带有 LinkExtractor 对象的 CrawlSpider 来抓取主页中的下一页和其他链接。我有两个链接提取器；一个用于抓取下一页，另一个用于抓取一些链接事件（参见下面的蜘蛛代码）。

\n\n

我的第二个 linkExtractor 可以工作（事件链接），但第一个不行。
\n当我启动蜘蛛时，我的堆栈跟踪中出现了此错误：

\n\n

[scrapy] WARNING: Remote certificate is not valid for hostname "marathons.ahotu.fr"; u\'ssl390453.cloudflaressl.com\'!=u\'marathons.ahotu.fr\'\n

Run Code Online (Sandbox Code Playgroud)\n\n

实际上我是 Python 和 Scrapy 的新手，所以我的问题是：

\n\n

这是什么意思？
我该如何解决它？

\n\n

这是我的蜘蛛代码：

\n\n

import scrapy\nimport os\nimport re\nfrom scrapy.spiders import CrawlSpider, Rule\nfrom scrapy.linkextractors import LinkExtractor\nfrom scrapy.selector import Selector\n\nif os.path.isfile(\'ListeCAP_Marathons_ahotu.csv\'):\n    reecritureFichier = open(\'ListeCAP_Marathons_ahotu.csv\', \'w\')\n    reecritureFichier.truncate()\n    reecritureFichier.close()\n\nclass MySpider(CrawlSpider):\n    name = \'ListeCAP_Marathons_ahotu\'\n    start_urls = [\'https://marathons.ahotu.fr/calendrier\']\n\n    rules = (\n        # LINKEXTRACTOR N\xc2\xb01 = NEXT PAGES\n        Rule(LinkExtractor(allow=(\'https://marathons.ahotu.fr/calendrier?page=[0-9]{1,100}#list-top\',),),),\n\n        # LINKEXTRACTOR N\xc2\xb02 = EVENTS LINKS\n        Rule(LinkExtractor(allow=(\'https://marathons.ahotu.fr/evenement/.+\',),),follow=True,callback=\'parse_item\'),      \n    )     \n\n    def parse_item(self, response):  \n        selector = Selector(response)\n        yield{\n            \'nom_even\':selector.xpath(\'/html/body/div[2]/div[2]/h1/span[@itemprop="name"]/text()\').extract(),\n    }    \n\n        print(\'--------------------> NOM DE L\\\'EVENEMENT :\', selector.xpath(\'//*[@id="jog"]/div[2]/section/article/header/h1/text()\').extract())\n

Run Code Online (Sandbox Code Playgroud)\n\n

（我正在使用 Scrapy 1.4.0 和 Twisted-17.9.0）

\n

Answer 1

Ric*_*cca 1

您无法修复此类错误。您能做的最好的事情就是向域管理员发送消息，让他/她知道证书有问题（在这种情况下，证书适用于其他域，而不是 marathons.arotu.fr）。

归档时间：	8 年，8 月前
查看次数：	3395 次
最近记录：	8 年，2 月前