使用BeautifulSoup解析由<br>标签分隔的行？

Question

使用BeautifulSoup解析由<br>标签分隔的行？

jam*_*ieb 9 python parsing beautifulsoup

我有一个看起来像这样的页面:

Company A<br />
123 Main St.<br />
Suite 101<br />
Someplace, NY 1234<br />
<br />
<br />
<br />
Company B<br />
456 Main St.<br />
Someplace, NY 1234<br />
<br />
<br />
<br />

Run Code Online (Sandbox Code Playgroud)

有时分隔条目有两个而不是三个"br"标签.我如何使用BeautifulSoup解析此文档并提取字段？我很难过,因为我需要的文本位不包含在我可以简单地遍历的段落(或类似)标签中.

Answer 1

ych*_*che 6

您应该查看.strings标记中找到的属性,然后在其上使用"\n".join().

Answer 2

Ign*_*ams 2

一旦你有了这个 HTML 片段，只需使用正则表达式将后面的可选换行符替换<br />为单个换行符，然后拆分为多个换行符。这应该会产生多个单独的段落，您可以手动处理这些段落。

归档时间：	16 年，3 月前
查看次数：	6119 次
最近记录：	9 年前