相关疑难解决方法(0)

BeautifulSoup抓住可见的网页文本

基本上,我想使用BeautifulSoup严格抓取网页上的可见文字.例如,这个网页是我的测试用例.而且我主要想在这里和那里获得正文(文章)甚至几个标签名称.我在这个SO问题中尝试过这个建议,它返回了许多<script>我不想要的标签和HTML注释.我无法找出函数所需的参数findAll(),以便在网页上获取可见文本.

那么,我应该如何找到除脚本,评论,CSS等之外的所有可见文本?

python text beautifulsoup html-content-extraction

115
推荐指数
5
解决办法
10万
查看次数

BeatifulSoup4 get_text仍然有javascript

我正在尝试使用bs4删除所有的html/javascript,但是,它并没有摆脱javascript.我仍然在那里看到它的文字.我怎么能绕过这个?

我试着用nltk然而,工作正常,clean_html并且clean_url将被删除向前发展.有没有办法使用汤get_text并获得相同的结果?

我试着看看这些其他页面:

BeautifulSoup get_text不会删除所有标记和JavaScript

目前我正在使用nltk已弃用的功能.

编辑

这是一个例子:

import urllib
from bs4 import BeautifulSoup

url = "http://www.cnn.com"
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
print soup.get_text()
Run Code Online (Sandbox Code Playgroud)

我仍然看到CNN的以下内容:

$j(function() {
"use strict";
if ( window.hasOwnProperty('safaripushLib') && window.safaripushLib.checkEnv() ) {
var pushLib = window.safaripushLib,
current = pushLib.currentPermissions();
if (current === "default") {
pushLib.checkPermissions("helloClient", function() {});
}
}
});

/*globals MainLocalObj*/
$j(window).load(function () {
'use strict';
MainLocalObj.init();
});
Run Code Online (Sandbox Code Playgroud)

我怎样才能删除js?

我找到的其他选项是:

https://github.com/aaronsw/html2text

问题html2text在于它有时真的慢,并且会产生明显的滞后,这是nltk总是非常好的一件事.

python beautifulsoup nltk

45
推荐指数
2
解决办法
2万
查看次数