提取存储的html文件的URL

Abh*_*tia -1 python urllib2 bs4

我已经存储了一些HTML文件并将其重命名。有什么可能的方法可以提取python中html文件的URL。

编辑:我希望找到.html文件的URL,而不是其中存在的链接。我正在寻找一种通用的方法,因为我有很多文件。

Emi*_*röm 5

仅当文件本身包含该URL(不是很常见)时才有可能。因此,这取决于您下载的文件。寻找一种, <link rel="canonical" ...>因为这是搜索引擎建议将规范地址发布到网页的方式。如果他们有该标签,则可以使用该URL。

否则,您将不走运。您应该重写蜘蛛以将URL与文档一起保存。