提取存储的html文件的URL

Question

我已经存储了一些HTML文件并将其重命名。有什么可能的方法可以提取python中html文件的URL。

编辑：我希望找到.html文件的URL，而不是其中存在的链接。我正在寻找一种通用的方法，因为我有很多文件。

Answer 1

仅当文件本身包含该URL（不是很常见）时才有可能。因此，这取决于您下载的文件。寻找一种， <link rel="canonical" ...>因为这是搜索引擎建议将规范地址发布到网页的方式。如果他们有该标签，则可以使用该URL。

否则，您将不走运。您应该重写蜘蛛以将URL与文档一起保存。