Aym*_*dji 6 python beautifulsoup
我是python的新手,我一直在尝试从此html代码获取链接和内部文本:
<div class="someclass">
<ul class="listing">
<li>
<a href="http://link1.com" title="">title1</a>
</li>
<li>
<a href="http://link2.com" title="">title2</a>
</li>
<li>
<a href="http://link3.com" title="">title3</a>
</li>
<li>
<a href="http://link4.com" title="">title4</a>
</li>
</ul>
</div>
Run Code Online (Sandbox Code Playgroud)
我只想要来自href http://link.com和内部文字的所有链接title
我尝试了这段代码
div = soup.find_all('ul',{'class':'listing'})
for li in div:
all_li = li.find_all('li')
for link in all_li.find_all('a'):
print(link.get('href'))
Run Code Online (Sandbox Code Playgroud)
但是没有人能帮助我
问题是您正在使用which在您应该使用的find_all第二个forloop中返回一个列表find()
>>> for ul in soup.find_all('ul', class_='listing'):
... for li in ul.find_all('li'):
... a = li.find('a')
... print(a['href'], a.get_text())
...
http://link1.com title1
http://link2.com title2
http://link3.com title3
http://link4.com title4
Run Code Online (Sandbox Code Playgroud)
您还可以使用CSS 选择器代替嵌套的forloop
>>> for a in soup.select('.listing li a'):
... print(a['href'], a.get_text(strip=True))
...
http://link1.com title1
http://link2.com title2
http://link3.com title3
http://link4.com title4
Run Code Online (Sandbox Code Playgroud)