Abh*_*tia -1 python urllib2 bs4
我已经存储了一些HTML文件并将其重命名。有什么可能的方法可以提取python中html文件的URL。
编辑:我希望找到.html文件的URL,而不是其中存在的链接。我正在寻找一种通用的方法,因为我有很多文件。
Emi*_*röm 5
仅当文件本身包含该URL(不是很常见)时才有可能。因此,这取决于您下载的文件。寻找一种, <link rel="canonical" ...>因为这是搜索引擎建议将规范地址发布到网页的方式。如果他们有该标签,则可以使用该URL。
<link rel="canonical" ...>
否则,您将不走运。您应该重写蜘蛛以将URL与文档一起保存。
归档时间:
10 年,6 月 前
查看次数:
104 次
最近记录: