use*_*312 1 python beautifulsoup
我试图解析一个HTML页面,BeautifulSoup其中包含文本文件,以.txt扩展名结尾.我想解析HTML,并获取以...结尾的字符串.txt.
所有这些字符串都在一个<a href>标记内,这里有一些例子:
<a href = "foo.txt">
<a href = "bar.txt">
我怎么得到foo.txt和bar.txt.
我这样做了:
>>> links = soup.findAll('a')
但是我找不到如何提取完整的字符串...有什么建议吗?
BeautifulSoup接受regexp作为参数形式find(),findAll()
这应该工作:
links = soup.findAll(href=re.compile("\.txt$"))
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1584 次 |
| 最近记录: |