使用BeautifulSoup解析由<br>标签分隔的行?

jam*_*ieb 9 python parsing beautifulsoup

我有一个看起来像这样的页面:

Company A<br />
123 Main St.<br />
Suite 101<br />
Someplace, NY 1234<br />
<br />
<br />
<br />
Company B<br />
456 Main St.<br />
Someplace, NY 1234<br />
<br />
<br />
<br />
Run Code Online (Sandbox Code Playgroud)

有时分隔条目有两个而不是三个"br"标签.我如何使用BeautifulSoup解析此文档并提取字段?我很难过,因为我需要的文本位不包含在我可以简单地遍历的段落(或类似)标签中.

ych*_*che 6

您应该查看.strings标记中找到的属性,然后在其上使用"\n".join().


Ign*_*ams 2

一旦你有了这个 HTML 片段,只需使用正则表达式将后面的可选换行符替换<br />为单个换行符,然后拆分为多个换行符。这应该会产生多个单独的段落,您可以手动处理这些段落。