小编mum*_*r91的帖子

在 BeautifulSoap 输出中用空格替换 <br>

我正在用 BeautifulSoap 抓取一些链接,但是它似乎完全忽略了<br>标签。

这是我正在抓取的 URL 源代码的相关部分:

<h1 class="para-title">A quick brown fox jumps over<br>the lazy dog
<span id="something">&#xe800;</span></h1>
Run Code Online (Sandbox Code Playgroud)

这是我的 BeautifulSoap 代码(仅相关部分),用于获取h1标签中的文本:

    soup = BeautifulSoup(page, 'html.parser')
    title_box = soup.find('h1', attrs={'class': 'para-title'})
    title = title_box.text.strip()
    print title
Run Code Online (Sandbox Code Playgroud)

这给出了以下输出:

    A quick brown fox jumps overthe lazy dog
Run Code Online (Sandbox Code Playgroud)

而我期待:

    A quick brown fox jumps over the lazy dog
Run Code Online (Sandbox Code Playgroud)

如何在我的代码<br>中用 a替换space

python beautifulsoup web-scraping

7
推荐指数
1
解决办法
3733
查看次数

标签 统计

beautifulsoup ×1

python ×1

web-scraping ×1