如何编写python脚本来搜索网站html以获得匹配的链接

Gem*_*DNK 3 python scrape

我不太熟悉python,必须编写一个脚本来执行一系列功能.基本上我仍然需要的模块是如何检查网站代码以匹配事先提供的链接.

Nic*_*sta 5

匹配链接是什么?他们的HREF属性?链接显示文字?也许是这样的:

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm
Run Code Online (Sandbox Code Playgroud)

这将获取HTML内容,somesite.com然后使用BeautifulSoup解析它,仅查找HREF属性以"test"开头的链接.然后,它会构建这些链接的列表并将其打印出来.

您可以使用文档对此进行修改以执行任何操作.