如何从 BeautifulSoup 中去除换行符获取文本方法

Question

如何从 BeautifulSoup 中去除换行符获取文本方法

抓取网页后我有以下输出

       text
Out[50]: 
['\nAbsolute FreeBSD, 2nd Edition\n',
'\nAbsolute OpenBSD, 2nd Edition\n',
'\nAndroid Security Internals\n',
'\nApple Confidential 2.0\n',
'\nArduino Playground\n',
'\nArduino Project Handbook\n',
'\nArduino Workshop\n',
'\nArt of Assembly Language, 2nd Edition\n',
'\nArt of Debugging\n',
'\nArt of Interactive Design\n',]

Run Code Online (Sandbox Code Playgroud)

我需要在迭代它时从上面的列表中去除 \n 。以下是我的代码

text = []
for name in web_text:
   a = name.get_text()
   text.append(a)

Run Code Online (Sandbox Code Playgroud)

Answer 1

ale*_*cxe 7

.strip()使用strip参数而不是显式调用：

a = name.get_text(strip=True)

Run Code Online (Sandbox Code Playgroud)

这也将删除子文本中的额外空格和换行符（如果有）。

归档时间：	9 年，2 月前
查看次数：	10059 次
最近记录：	7 年，10 月前