我正在尝试解析一个网站以提取存储在正文中的一些数据,例如:
<body>
<b>INFORMATION</b>
Hookups: None
Group Sites: No
Station: No
<b>Details</b>
Ramp: Yes
</body>
Run Code Online (Sandbox Code Playgroud)
我想使用BeautifulSoup4和RegEx来提取Hookups和Group Sites等的值,但我对bs4和RegEx都不熟悉.我尝试了以下方法来获取Hookups值:
soup = BeautifulSoup(open('doc.html'))
hookups = soup.find_all(re.compile("Hookups:(.*)Group"))
Run Code Online (Sandbox Code Playgroud)
但搜索结果是空的.