小编use*_*906的帖子

Python3.5 BeautifulSoup4从div中的'p'获取文本

我试图从div类'caselawcontent searchable-content'中提取所有文本.此代码只打印HTML而不包含网页中的文本.得到文本我错过了什么？

以下链接位于'finteredcasesdoc.text'文件中:http://caselaw.findlaw.com/mo-court-of-appeals/1021163.html

import requests
from bs4 import BeautifulSoup

with open('filteredcasesdoc.txt', 'r') as openfile1:

    for line in openfile1:
                rulingpage = requests.get(line).text
                soup = BeautifulSoup(rulingpage, 'html.parser')
                doctext = soup.find('div', class_='caselawcontent searchable-content')
                print (doctext)

Run Code Online (Sandbox Code Playgroud)

html beautifulsoup python-3.x python-requests

use*_*906

2017 05-16

5
推荐指数

1
解决办法

604
查看次数