Python正则表达式后视需要固定宽度模式

Question

Python正则表达式后视需要固定宽度模式

在尝试提取html页面的标题时,我总是使用以下正则表达式:

(?<=<title.*>)([\s\S]*)(?=</title>)

Run Code Online (Sandbox Code Playgroud)

这将提取文档中标记之间的所有内容,并忽略标记本身.但是,当尝试在Python中使用此正则表达式时,会引发以下异常:

Traceback (most recent call last):  
File "test.py", line 21, in <module>
    pattern = re.compile('(?<=<title.*>)([\s\S]*)(?=</title>)')
File "C:\Python31\lib\re.py", line 205, in compile
    return _compile(pattern, flags)   
File "C:\Python31\lib\re.py", line 273, in _compile
    p = sre_compile.compile(pattern, flags)   File
"C:\Python31\lib\sre_compile.py", line 495, in compile
    code = _code(p, flags)   File "C:\Python31\lib\sre_compile.py", line 480, in _code
_compile(code, p.data, flags)   File "C:\Python31\lib\sre_compile.py", line 115, in _compile
    raise error("look-behind requires fixed-width pattern")
sre_constants.error: look-behind requires fixed-width pattern

Run Code Online (Sandbox Code Playgroud)

我使用的代码是:

pattern = re.compile('(?<=<title.*>)([\s\S]*)(?=</title>)')
m = pattern.search(f)

Run Code Online (Sandbox Code Playgroud)

如果我做一些最小的调整它的工作原理:

pattern = re.compile('(?<=<title>)([\s\S]*)(?=</title>)')
m = pattern.search(f)

Run Code Online (Sandbox Code Playgroud)

但是,这不会考虑由于某种原因具有属性或类似性的潜在html标题.

任何人都知道这个问题的一个好的解决方法？任何提示都表示赞赏.

Answer 1

Wel*_*bog 11

抛弃了用正则表达式解析HTML的想法,而是使用实际的HTML解析库.快速搜索后我发现了这个.从HTML文件中提取信息是一种更安全的方法.

请记住,HTML不是常规语言,因此正则表达式从根本上说是从中提取信息的错误工具.

BeautifulSoup(http://www.crummy.com/software/BeautifulSoup/)也是不错的选择. (7认同)

Answer 2

Ste*_*mon 5

这是一个着名的答案,用正则表达式解析html,它很好地说,"不要使用正则表达式解析html."

是的,不是.您不应该使用正则表达式来解析整个DOM或复杂的标记嵌套.但是,正如OP正在尝试的那样,解析单个非嵌套标记是完全合法使用正则表达式. (4认同)

Answer 3

gho*_*g74 2

如果你只是想获得标题标签，

html=urllib2.urlopen("http://somewhere").read()
for item in html.split("</title>"):
    if "<title>" in item:
        print item[ item.find("<title>")+7: ]

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，9 月前
查看次数：	4931 次
最近记录：	12 年，10 月前