我有这个代码:
reg = re.search('<div class="col result_name">(.*)</div>', html)
print 'Value is', reg.group()
Run Code Online (Sandbox Code Playgroud)
'html'包含这样的内容:
<div class="col result_name">
<h4>Blah</h4>
<p>
blah
</p>
</div>
Run Code Online (Sandbox Code Playgroud)
但它没有返回任何东西.
Value is
Traceback (most recent call last):
File "run.py", line 37, in <module>
print 'Value is', reg.group()
Run Code Online (Sandbox Code Playgroud)
不要使用正则表达式来解析html.使用html解析器
import lxml.html
doc = lxml.html.fromstring(your_html)
result = doc.xpath("//div[@class='col result_name']")
print result
Run Code Online (Sandbox Code Playgroud)
强制性链接:
| 归档时间: |
|
| 查看次数: |
899 次 |
| 最近记录: |