美丽的汤使用正则表达式来查找标签？

Question

美丽的汤使用正则表达式来查找标签？

我真的希望能够让Beautiful Soup匹配任何标签列表,就像这样.我知道attr接受正则表达式,但有什么美丽的汤可以让你这样做吗？

soup.findAll("(a|div)")

Run Code Online (Sandbox Code Playgroud)

输出:

<a> ASDFS
<div> asdfasdf
<a> asdfsdf

Run Code Online (Sandbox Code Playgroud)

我的目标是创建一个可以从站点中获取表的scraper.有时候标签名称不一致,我希望能够输入一个标签列表来命名表格的"数据"部分.

Answer 1

Man*_* CJ 38

请注意,您还可以使用正则表达式搜索标记的属性.例如:

import re
from bs4 import BeautifulSoup

soup.find_all('a', {'href': re.compile(r'crummy\.com/')})

Run Code Online (Sandbox Code Playgroud)

此示例查找<a>链接到包含子字符串的网站的所有标记'crummy.com'.

(我知道这是一篇非常古老的帖子,但希望有人会发现这些附加信息很有用.)

Answer 2

hwn*_*wnd 35

find_all() 是Beautiful Soup搜索API中最受青睐的方法.

您可以传递一系列过滤器.另外,传递一个列表来查找多个标签:

>>> soup.find_all(['a', 'div'])

Run Code Online (Sandbox Code Playgroud)

示例:

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<html><body><div>asdfasdf</div><p><a>foo</a></p></body></html>')
>>> soup.find_all(['a', 'div'])
[<div>asdfasdf</div>, <a>foo</a>]

Run Code Online (Sandbox Code Playgroud)

或者,您可以使用正则表达式查找包含a或的标记div:

>>> import re
>>> soup.find_all(re.compile("(a|div)"))

Run Code Online (Sandbox Code Playgroud)

Answer 3

ZJS*_*ZJS 7

是的，请参阅文档...

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

import re

soup.findAll(re.compile("^a$|(div)"))

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，6 月前
查看次数：	39016 次
最近记录：	7 年，9 月前