Kye*_*Kim 1 python parsing beautifulsoup
我正在使用python的beautifulsoup
<div class="test1">
<a href="www.google.com" blur blur~> text </a>
</div>
<div class="test2">
<a href="www.stackoverflow.com" blur blur~> text </a>
</div>
<div class="test3">
<a href="www.msn.com" blur blur~> text </a>
</div>
<div class="test4">
<a href="www.naver.com" blur blur~> text </a>
</div>
<div class="test5">
<a href="www.ios.com" blur blur~> text </a>
</div>
Run Code Online (Sandbox Code Playgroud)
像这种情况,我想得到一个特定的 href 信息。例如,当我需要一个 href='www.ios.com' 时,我如何使用类名。
HTML 文件有超过 1000 个“a”选择器,并且包含的 url 地址是动态的。
我怎么能得到这个?请回答我TT
完整的工作示例。
例如,您可以使用select和 CSS 选择器,例如.class,#id和tag。
from bs4 import BeautifulSoup
content='''<div class="test1">
<a href="www.google.com" blur blur~> text </a>
</div>
<div class="test2">
<a href="www.stackoverflow.com" blur blur~> text </a>
</div>
<div class="test3">
<a href="www.msn.com" blur blur~> text </a>
</div>
<div class="test4">
<a href="www.naver.com" blur blur~> text </a>
</div>
<div class="test5">
<a href="www.ios.com" blur blur~> text </a>
</div>'''
soup = BeautifulSoup(content, 'html.parser')
all_a = soup.select('.test5 a')
for a in all_a:
print(a['href'])
# www.ios.com
Run Code Online (Sandbox Code Playgroud)
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
| 归档时间: |
|
| 查看次数: |
14030 次 |
| 最近记录: |