我需要匹配所有这些开始标记:
<p>
<a href="foo">
Run Code Online (Sandbox Code Playgroud)
但不是这些:
<br />
<hr class="foo" />
Run Code Online (Sandbox Code Playgroud)
我想出了这个,并希望确保我做对了.我只抓住了a-z.
<([a-z]+) *[^/]*?>
Run Code Online (Sandbox Code Playgroud)
我相信它说:
/,然后我有这个权利吗?更重要的是,你怎么看?
我试图从div类'caselawcontent searchable-content'中提取所有文本.此代码只打印HTML而不包含网页中的文本.得到文本我错过了什么?
以下链接位于'finteredcasesdoc.text'文件中:http://caselaw.findlaw.com/mo-court-of-appeals/1021163.html
import requests
from bs4 import BeautifulSoup
with open('filteredcasesdoc.txt', 'r') as openfile1:
for line in openfile1:
rulingpage = requests.get(line).text
soup = BeautifulSoup(rulingpage, 'html.parser')
doctext = soup.find('div', class_='caselawcontent searchable-content')
print (doctext)
Run Code Online (Sandbox Code Playgroud) 这是我第一次使用网页抓取工作.到目前为止,我能够导航并找到我想要的HTML部分.我也可以打印出来.问题是只打印文本,这将无法正常工作.我在尝试时遇到以下错误:AttributeError: 'ResultSet' object has no attribute 'get_text'
这是我的代码:
from bs4 import BeautifulSoup
import urllib
page = urllib.urlopen('some url')
soup = BeautifulSoup(page)
zeug = soup.find_all('div', attrs={'class': 'fm_linkeSpalte'}).get_text()
print zeug
Run Code Online (Sandbox Code Playgroud) 我如何以单个字符串的形式获取XML文档的所有文本内容- 像这个Ruby / hpricot示例,但使用Python。
我想用一个空格替换XML标签。