python BeautifulSoup在div的子代中获取所有href

Question

python BeautifulSoup在div的子代中获取所有href

我是python的新手，我一直在尝试从此html代码获取链接和内部文本：

<div class="someclass">
  <ul class="listing">
        <li>
          <a href="http://link1.com" title="">title1</a>
                </li>
        <li>
           <a href="http://link2.com" title="">title2</a>
                 </li>
        <li>
           <a href="http://link3.com" title="">title3</a>
                 </li>
        <li>
           <a href="http://link4.com" title="">title4</a>
                  </li>
  </ul>
</div>

Run Code Online (Sandbox Code Playgroud)

我只想要来自href http://link.com和内部文字的所有链接title

我尝试了这段代码

    div = soup.find_all('ul',{'class':'listing'})
for li in div:
    all_li = li.find_all('li')
    for link in all_li.find_all('a'):
        print(link.get('href'))

Run Code Online (Sandbox Code Playgroud)

但是没有人能帮助我

Answer 1

sty*_*ane 6

问题是您正在使用which在您应该使用的find_all第二个forloop中返回一个列表find()

>>> for ul in soup.find_all('ul', class_='listing'):
...     for li in ul.find_all('li'):
...         a = li.find('a')
...         print(a['href'], a.get_text())
... 
http://link1.com title1
http://link2.com title2
http://link3.com title3
http://link4.com title4

Run Code Online (Sandbox Code Playgroud)

您还可以使用CSS 选择器代替嵌套的forloop

>>> for a in soup.select('.listing li a'):
...     print(a['href'], a.get_text(strip=True))
... 
http://link1.com title1
http://link2.com title2
http://link3.com title3
http://link4.com title4

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，8 月前
查看次数：	4616 次
最近记录：	9 年，8 月前