如何获取BeautifulSoup中所有父标签的列表？

Question

如何获取BeautifulSoup中所有父标签的列表？

Ris*_*shi 3 python beautifulsoup html-parsing xml-parsing

假设我有这样的结构:

<folder name="folder1">
     <folder name="folder2">
          <bookmark href="link.html">
     </folder>
</folder>

Run Code Online (Sandbox Code Playgroud)

如果我指向书签,那么只提取所有文件夹行的命令是什么？例如,

bookmarks = soup.findAll('bookmark')

Run Code Online (Sandbox Code Playgroud)

然后beautifulsoupcommand(bookmarks[0])会回来:

[<folder name="folder1">,<folder name="folder2">]

Run Code Online (Sandbox Code Playgroud)

我也想知道结尾标签何时出现.有任何想法吗？

提前致谢!

Answer 1

Man*_*dan 7

以下是我的尝试:

>>> from BeautifulSoup import BeautifulSoup
>>> html = """<folder name="folder1">
     <folder name="folder2">
          <bookmark href="link.html">
     </folder>
</folder>
"""
>>> soup = BeautifulSoup(html)
>>> bookmarks = soup.findAll('bookmark')
>>> [p.get('name') for p in bookmarks[0].findAllPrevious(name = 'folder')]
[u'folder2', u'folder1']

Run Code Online (Sandbox Code Playgroud)

与@ eumiro的答案的主要区别在于我使用的是findAllPrevious代替findParents.当我测试@ eumiro的解决方案时,我发现findParents只返回第一个(立即)父节点,因为父节点和祖父节点的名称相同.

>>> [p.get('name') for p in bookmarks[0].findParents('folder')]
[u'folder2']

>>> [p.get('name') for p in bookmarks[0].findParents()]
[u'folder2', None]

Run Code Online (Sandbox Code Playgroud)

如果父母和祖父母的姓名不同,它确实会返回两代父母.

>>> html = """<folder name="folder1">
     <folder_parent name="folder2">
          <bookmark href="link.html">
     </folder_parent>
</folder>
"""
>>> soup = BeautifulSoup(html)
>>> bookmarks = soup.findAll('bookmark')
>>> [p.get('name') for p in bookmarks[0].findParents()]
[u'folder2', u'folder1', None]

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，9 月前
查看次数：	5717 次
最近记录：	7 年，11 月前