Des*_*sAu 0 python urllib2 beautifulsoup
我正在研究一个解析 HTML 页面的项目。它适用于公司内部的网站,但我更改了示例,以便您可以尝试。
我得到一个 HTML 页面的源代码并搜索某个标记。然后我想提取这个标记的一个子字符串,但它不起作用。Python 返回一个 none... Hier 在我的代码下面,在注释中是 Python 的返回:
#!/usr/bin/python
import urllib2
from bs4 import BeautifulSoup
response = urllib2.urlopen("http://www.resto.be/restaurant/liege/4000-liege/8219-le-bar-a-gouts/")
page_source = response.read()
soup = BeautifulSoup(page_source)
name = soup.find_all("meta", attrs={"itemprop":"name"})
print(name[0])
# <meta content="LE BAR A GOUTS" itemprop="name"/>
print(name[0].find("<meta"))
# none
Run Code Online (Sandbox Code Playgroud)
你没有一个字符串,你有一个标签 object。打印标签有一个很好的 HTML 表示,但它不是一个字符串对象。
因此,您使用的是 BeautifulSoupTag.find()函数,None如果没有带有标签名称的子标签,它就会返回<meta。这里确实没有。
如果要查找content属性,请使用项目访问权限:
print name[0]['content']
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
4210 次 |
| 最近记录: |