相关疑难解决方法(0)

BeautifulSoup抓住可见的网页文本

基本上,我想使用BeautifulSoup严格抓取网页上的可见文字.例如,这个网页是我的测试用例.而且我主要想在这里和那里获得正文(文章)甚至几个标签名称.我在这个SO问题中尝试过这个建议,它返回了许多<script>我不想要的标签和HTML注释.我无法找出函数所需的参数findAll(),以便在网页上获取可见文本.

那么,我应该如何找到除脚本,评论,CSS等之外的所有可见文本?

python text beautifulsoup html-content-extraction

115
推荐指数
5
解决办法
10万
查看次数