Scrapy - 警告:远程证书对于主机名无效

Vio*_*Geo 5 scrapy certificate-error

我正在使用带有 LinkExtractor 对象的 CrawlSpider 来抓取主页中的下一页和其他链接。我有两个链接提取器;一个用于抓取下一页,另一个用于抓取一些链接事件(参见下面的蜘蛛代码)。

\n\n

我的第二个 linkExtractor 可以工作(事件链接),但第一个不行。
\n当我启动蜘蛛时,我的堆栈跟踪中出现了此错误:

\n\n
[scrapy] WARNING: Remote certificate is not valid for hostname "marathons.ahotu.fr"; u\'ssl390453.cloudflaressl.com\'!=u\'marathons.ahotu.fr\'\n
Run Code Online (Sandbox Code Playgroud)\n\n

实际上我是 Python 和 Scrapy 的新手,所以我的问题是:

\n\n
    \n
  • 这是什么意思 ?
  • \n
  • 我该如何解决它?
  • \n
\n\n

这是我的蜘蛛代码:

\n\n
import scrapy\nimport os\nimport re\nfrom scrapy.spiders import CrawlSpider, Rule\nfrom scrapy.linkextractors import LinkExtractor\nfrom scrapy.selector import Selector\n\nif os.path.isfile(\'ListeCAP_Marathons_ahotu.csv\'):\n    reecritureFichier = open(\'ListeCAP_Marathons_ahotu.csv\', \'w\')\n    reecritureFichier.truncate()\n    reecritureFichier.close()\n\nclass MySpider(CrawlSpider):\n    name = \'ListeCAP_Marathons_ahotu\'\n    start_urls = [\'https://marathons.ahotu.fr/calendrier\']\n\n    rules = (\n        # LINKEXTRACTOR N\xc2\xb01 = NEXT PAGES\n        Rule(LinkExtractor(allow=(\'https://marathons.ahotu.fr/calendrier?page=[0-9]{1,100}#list-top\',),),),\n\n        # LINKEXTRACTOR N\xc2\xb02 = EVENTS LINKS\n        Rule(LinkExtractor(allow=(\'https://marathons.ahotu.fr/evenement/.+\',),),follow=True,callback=\'parse_item\'),      \n    )     \n\n    def parse_item(self, response):  \n        selector = Selector(response)\n        yield{\n            \'nom_even\':selector.xpath(\'/html/body/div[2]/div[2]/h1/span[@itemprop="name"]/text()\').extract(),\n    }    \n\n        print(\'--------------------> NOM DE L\\\'EVENEMENT :\', selector.xpath(\'//*[@id="jog"]/div[2]/section/article/header/h1/text()\').extract())\n
Run Code Online (Sandbox Code Playgroud)\n\n

(我正在使用 Scrapy 1.4.0 和 Twisted-17.9.0)

\n

Ric*_*cca 1

您无法修复此类错误。您能做的最好的事情就是向域管理员发送消息,让他/她知道证书有问题(在这种情况下,证书适用于其他域,而不是 marathons.arotu.fr)。