相关疑难解决方法(0)

基本上,我想使用BeautifulSoup严格抓取网页上的可见文字.例如,这个网页是我的测试用例.而且我主要想在这里和那里获得正文(文章)甚至几个标签名称.我在这个SO问题中尝试过这个建议,它返回了许多<script>我不想要的标签和HTML注释.我无法找出函数所需的参数findAll(),以便在网页上获取可见文本.

那么,我应该如何找到除脚本,评论,CSS等之外的所有可见文本？

python text beautifulsoup html-content-extraction

use*_*864

2017 05-23

115
推荐指数

5
解决办法

10万
查看次数

Python3.5 BeautifulSoup4从div中的'p'获取文本

我试图从div类'caselawcontent searchable-content'中提取所有文本.此代码只打印HTML而不包含网页中的文本.得到文本我错过了什么？

以下链接位于'finteredcasesdoc.text'文件中:http://caselaw.findlaw.com/mo-court-of-appeals/1021163.html

import requests
from bs4 import BeautifulSoup

with open('filteredcasesdoc.txt', 'r') as openfile1:

    for line in openfile1:
                rulingpage = requests.get(line).text
                soup = BeautifulSoup(rulingpage, 'html.parser')
                doctext = soup.find('div', class_='caselawcontent searchable-content')
                print (doctext)

Run Code Online (Sandbox Code Playgroud)

html beautifulsoup python-3.x python-requests

use*_*906

2017 05-16

5
推荐指数

1
解决办法

604
查看次数

来自find_all的BeautifulSoup get_text

这是我第一次使用网页抓取工作.到目前为止,我能够导航并找到我想要的HTML部分.我也可以打印出来.问题是只打印文本,这将无法正常工作.我在尝试时遇到以下错误:AttributeError: 'ResultSet' object has no attribute 'get_text'

这是我的代码:

from bs4 import BeautifulSoup
import urllib

page = urllib.urlopen('some url')


soup = BeautifulSoup(page)
zeug = soup.find_all('div', attrs={'class': 'fm_linkeSpalte'}).get_text()


print zeug

Run Code Online (Sandbox Code Playgroud)

python urllib beautifulsoup

Kry*_*tos

2014 02-25

4
推荐指数

1
解决办法

9679
查看次数