在 BeautifulSoap 输出中用空格替换 <br>

Question

在 BeautifulSoap 输出中用空格替换 <br>

mum*_*r91 7 python beautifulsoup web-scraping

我正在用 BeautifulSoap 抓取一些链接，但是它似乎完全忽略了<br>标签。

这是我正在抓取的 URL 源代码的相关部分：

<h1 class="para-title">A quick brown fox jumps over<br>the lazy dog
<span id="something">&#xe800;</span></h1>

Run Code Online (Sandbox Code Playgroud)

这是我的 BeautifulSoap 代码（仅相关部分），用于获取h1标签中的文本：

    soup = BeautifulSoup(page, 'html.parser')
    title_box = soup.find('h1', attrs={'class': 'para-title'})
    title = title_box.text.strip()
    print title

Run Code Online (Sandbox Code Playgroud)

这给出了以下输出：

    A quick brown fox jumps overthe lazy dog

Run Code Online (Sandbox Code Playgroud)

而我期待：

    A quick brown fox jumps over the lazy dog

Run Code Online (Sandbox Code Playgroud)

如何在我的代码<br>中用 a替换space？

Answer 1

chi*_*n88 12

.get_text()与分隔符参数一起使用怎么样？

from bs4 import BeautifulSoup

page = '''<h1 class="para-title">A quick brown fox jumps over<br>the lazy dog
<span>some stuff here</span></h1>'''


soup = BeautifulSoup(page, 'html.parser')
title_box = soup.find('h1', attrs={'class': 'para-title'})
title = title_box.get_text(separator=" ").strip()
print (title)

Run Code Online (Sandbox Code Playgroud)

输出：

print (title)
A quick brown fox jumps over the lazy dog
 some stuff here

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，10 月前
查看次数：	3733 次
最近记录：	4 年，11 月前

在 BeautifulSoap 输出中用空格替换 &lt;br&gt;

在 BeautifulSoap 输出中用空格替换 <br>