我怎样才能在beautifulsoup中获得href标签？

Question

我怎样才能在beautifulsoup中获得href标签？

Kye*_*Kim 1 python parsing beautifulsoup

我正在使用python的beautifulsoup

<div class="test1">
   <a href="www.google.com" blur blur~> text </a>
</div>

<div class="test2">
   <a href="www.stackoverflow.com" blur blur~> text </a>
</div>

<div class="test3">
   <a href="www.msn.com" blur blur~> text </a>
</div>

<div class="test4">
   <a href="www.naver.com" blur blur~> text </a>
</div>

<div class="test5">
   <a href="www.ios.com" blur blur~> text </a>
</div>

Run Code Online (Sandbox Code Playgroud)

像这种情况，我想得到一个特定的 href 信息。例如，当我需要一个 href='www.ios.com' 时，我如何使用类名。

HTML 文件有超过 1000 个“a”选择器，并且包含的 url 地址是动态的。

我怎么能得到这个？请回答我TT

Answer 1

fur*_*ras 6

完整的工作示例。

例如，您可以使用select和 CSS 选择器，例如.class,#id和tag。

from bs4 import BeautifulSoup

content='''<div class="test1">
   <a href="www.google.com" blur blur~> text </a>
</div>

<div class="test2">
   <a href="www.stackoverflow.com" blur blur~> text </a>
</div>

<div class="test3">
   <a href="www.msn.com" blur blur~> text </a>
</div>

<div class="test4">
   <a href="www.naver.com" blur blur~> text </a>
</div>

<div class="test5">
   <a href="www.ios.com" blur blur~> text </a>
</div>'''

soup = BeautifulSoup(content, 'html.parser')

all_a = soup.select('.test5 a')

for a in all_a:
    print(a['href'])

# www.ios.com

Run Code Online (Sandbox Code Playgroud)

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

归档时间：	10 年前
查看次数：	14030 次
最近记录：	6 年，8 月前