如何使用Beautiful Soup找到节点的子节点

Question

我想得到所有<a>孩子的标签<li>

<div>
<li class="test">
    <a>link1</a>
    <ul> 
       <li>  
          <a>link2</a> 
       </li>
    </ul>
</li>
</div>

我知道如何找到像这样的特定类的元素

soup.find("li", { "class" : "test" })

但我不知道如何找到所有<a>孩子<li class=test>而不是其他孩子

喜欢我想选择

<a>link1</a>

Answer 1

DOC中有一个超小部分,显示如何查找/ find_all 直接孩子.

在你的情况下,你想要link1,这是第一个直接的孩子:

# for only first direct child
soup.find("li", { "class" : "test" }).find("a", recursive=False)

如果你想要所有直接孩子:

# for all direct children
soup.find("li", { "class" : "test" }).findAll("a", recursive=False)

Answer 2

试试这个

li = soup.find('li', {'class': 'text'})
children = li.findChildren("a" , recursive=False)
for child in children:
    print child

来自 bs4 站点：“findChildren、findChild：这些方法是 Beautiful Soup 2 API 遗留下来的。它们自 2006 年以来已被弃用，根本不应该使用：” (17认同)
或者,只提取描述我们想要的表达式:`soup.find('li',{'class':'text'}).findChildren()`. (3认同)
但是如何在病房之后才获得frist <a>标签.类似于`find(li).find(a).firstChild()` (3认同)

Answer 3

也许你想做

soup.find("li", { "class" : "test" }).find('a')

我认为它也会找到`<a> link2 </a>`，但我不想那样 (2认同)
这回答了如何在问题中给出的 HTML 中选择 `<a>link1</a>` 的问题，但是当第一个 `<li class="test">` 不包含 `<a>` 时，这将失败元素，还有其他带有包含`<a>` 的`test` 类的`li` 元素。 (2认同)

Answer 4

试试这个:

li = soup.find("li", { "class" : "test" })
children = li.find_all("a") # returns a list of all <a> children of li

其他提醒:

find方法只获取第一个出现的子元素.find_all方法获取所有后代元素并存储在列表中.

Answer 5

刚刚发现这个答案并检查了文档，发现它soup.findChildren已被弃用（BS 4.9）。您可以soup.children改为使用，它只考虑元素的直接子元素，而不考虑其后代。

li = soup.find('li', {'class': 'text'})
for child in li.children:
    print(child)

Answer 6

另一种方法 - 创建一个返回True所有所需标签的过滤器函数:

def my_filter(tag):
    return (tag.name == 'a' and
        tag.parent.name == 'li' and
        'test' in tag.parent['class'])

然后find_all用参数调用:

for a in soup(my_filter): # or soup.find_all(my_filter)
    print a

Answer 7

“如何找到所有a是孩子的孩子，<li class=test>而不是其他孩子？”

给定下面的HTML（我添加了另一个<a>以显示select和之间的区别select_one）：

<div>
  <li class="test">
    <a>link1</a>
    <ul>
      <li>
        <a>link2</a>
      </li>
    </ul>
    <a>link3</a>
  </li>
</div>

解决方案是使用放置在两个CSS选择器之间的子组合器（>）：

>>> soup.select('li.test > a')
[<a>link1</a>, <a>link3</a>]

如果您只想找到第一个孩子：

>>> soup.select_one('li.test > a')
<a>link1</a>