我怎样才能在beautifulsoup中获得href标签?

Kye*_*Kim 1 python parsing beautifulsoup

我正在使用python的beautifulsoup

<div class="test1">
   <a href="www.google.com" blur blur~> text </a>
</div>

<div class="test2">
   <a href="www.stackoverflow.com" blur blur~> text </a>
</div>

<div class="test3">
   <a href="www.msn.com" blur blur~> text </a>
</div>

<div class="test4">
   <a href="www.naver.com" blur blur~> text </a>
</div>

<div class="test5">
   <a href="www.ios.com" blur blur~> text </a>
</div>
Run Code Online (Sandbox Code Playgroud)

像这种情况,我想得到一个特定的 href 信息。例如,当我需要一个 href='www.ios.com' 时,我如何使用类名。

HTML 文件有超过 1000 个“a”选择器,并且包含的​​ url 地址是动态的。

我怎么能得到这个?请回答我TT

fur*_*ras 6

完整的工作示例。

例如,您可以使用select和 CSS 选择器,例如.class,#idtag

from bs4 import BeautifulSoup

content='''<div class="test1">
   <a href="www.google.com" blur blur~> text </a>
</div>

<div class="test2">
   <a href="www.stackoverflow.com" blur blur~> text </a>
</div>

<div class="test3">
   <a href="www.msn.com" blur blur~> text </a>
</div>

<div class="test4">
   <a href="www.naver.com" blur blur~> text </a>
</div>

<div class="test5">
   <a href="www.ios.com" blur blur~> text </a>
</div>'''

soup = BeautifulSoup(content, 'html.parser')

all_a = soup.select('.test5 a')

for a in all_a:
    print(a['href'])

# www.ios.com
Run Code Online (Sandbox Code Playgroud)

http://www.crummy.com/software/BeautifulSoup/bs4/doc/