Python:HTML正则表达式不匹配

Zen*_*eno 0 html python regex

我有这个代码:

reg = re.search('<div class="col result_name">(.*)</div>', html)
print 'Value is', reg.group()
Run Code Online (Sandbox Code Playgroud)

'html'包含这样的内容:

        <div class="col result_name">
            <h4>Blah</h4>
            <p>
                blah
            </p>
        </div>
Run Code Online (Sandbox Code Playgroud)

但它没有返回任何东西.

Value is
Traceback (most recent call last):
  File "run.py", line 37, in <module>
    print 'Value is', reg.group()
Run Code Online (Sandbox Code Playgroud)

nos*_*klo 6

不要使用正则表达式来解析html.使用html解析器

import lxml.html
doc = lxml.html.fromstring(your_html)
result = doc.xpath("//div[@class='col result_name']")
print result
Run Code Online (Sandbox Code Playgroud)

强制性链接:

除了XHTML自包含标记之外,RegEx匹配开放标记