her*_*ron 4 html python tags parsing
我是python的新手。这是我在python 2.7.5上工作的代码
import urllib2
import sys
url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
print data
Run Code Online (Sandbox Code Playgroud)
像这样获得HTML标记,它就可以工作。
我要做的是从<font class="big"></font>
标签内部获取价值。对于前。我需要来自此示例的数据值:
<font class="big">Data</font>
Run Code Online (Sandbox Code Playgroud)
怎么做?
您可以使用HTML解析器模块,例如BeautifulSoup
:
from bs4 import BeautifulSoup as BS
url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
soup = BS(data)
print soup.find('font', {'class':'big'}).text
Run Code Online (Sandbox Code Playgroud)
这个发现标签<font>
有class="big"
。然后打印其内容。