在Python正则表达式搜索中匹配字符串的通配符

one*_*day 9 python regex

我想我会写一些快速代码来下载Facebook页面的"粉丝"数量.

出于某种原因,尽管我尝试了相当多的迭代次数,但我无法获得以下代码来挑选HTML中的粉丝数量.在这种情况下,我在网络上找到的其他解决方案都没有正确匹配正则表达式.当然可以在两个匹配位之间加一些通配符?

我想要匹配的文字是" X粉丝中的6个 ",其中X是页面拥有的任意数量的粉丝 - 我想得到这个数字.

我正在考虑间歇性地轮询这些数据并写入文件,但我还没有解决这个问题.我也想知道这是否朝着正确的方向前进,因为代码看起来很笨重.:)

import urllib
import re

fbhandle = urllib.urlopen('http://www.facebook.com/Microsoft')
pattern = "6 of(.*)fans" #this wild card doesnt appear to work?
compiled = re.compile(pattern)

for lines in fbhandle.readlines():
        ms = compiled.match(lines)
        print ms #debugging
        if ms: break
#ms.group()
print ms
fbhandle.close()
Run Code Online (Sandbox Code Playgroud)

Eva*_*ark 12

import urllib
import re

fbhandle = urllib.urlopen('http://www.facebook.com/Microsoft')
pattern = "6 of(.*)fans" #this wild card doesnt appear to work?
compiled = re.compile(pattern)

ms = compiled.search(fbhandle.read())
print ms.group(1).strip()
fbhandle.close()
Run Code Online (Sandbox Code Playgroud)

你需要re.search()改用.使用re.match()try来匹配整个文档的模式,但实际上你只是想匹配文档中的一个部分.上面的代码打印:79,110.当然,这可能是由其他人运行时的不同数字.

  • @oneAday:"匹配"和"搜索"之间区别的很好解释:http://www.amk.ca/python/howto/regex/regex.html#SECTION000720000000000000000 (2认同)

ste*_*eha 11

Evan Fosmark已经给出了一个很好的答案.这只是更多信息.

你有这条线:

pattern = "6 of(.*)fans"
Run Code Online (Sandbox Code Playgroud)

一般来说,这不是一个好的正则表达式.如果输入文本是:

"整个银河系的99名粉丝中有6名"

然后匹配组(括号内的东西)将是:

"整个银河系的99名粉丝"

所以,我们想要一个能够抓住你想要的模式,即使是像上面那样愚蠢的输入文本.

在这种情况下,如果匹配空格并不重要,因为当您将字符串转换为整数时,将忽略空格.但是让我们写一下模式来忽略空格.

使用*通配符,可以匹配长度为零的字符串.在这种情况下,我认为你总是想要一个非空匹配,所以你想+用来匹配一个或多个字符.

Python具有非贪婪匹配,因此您可以使用它进行重写.具有正则表达式的旧程序可能没有非贪婪的匹配,因此我还将给出一种不需要非贪婪的模式.

所以,非贪婪的模式:

pattern = "6 of\s+(.+?)\s+fans"
Run Code Online (Sandbox Code Playgroud)

另一个:

pattern = "6 of\s+(\S+)\s+fans"
Run Code Online (Sandbox Code Playgroud)

\s表示"任何空格",并且将匹配空格,制表符和一些其他字符(例如"换页"). \S意味着"任何非空白"和匹配任何\s匹配.

使用愚蠢的输入文本,第一个模式比第一个模式更好:

"整个银河系的99名粉丝中有6名"

它会返回一个匹配组99.

但试试这个其他愚蠢的输入文字:

"疯子迷中有6人"

它将返回一个匹配组99 crazed.

第二种模式根本不匹配,因为"疯狂"这个词不是"粉丝"这个词.

嗯.这是最后一个模式,即使使用愚蠢的输入文本也应该始终做正确的事情:

pattern = "6 of\D*?(\d+)\D*?fans"
Run Code Online (Sandbox Code Playgroud)

\d匹配任何数字('0'to '9'). \D匹配任何非数字.

这将成功匹配远程非模糊的任何内容:

"整个银河系的99名粉丝中有6名"

匹配组将是99.

"疯子迷中有6人"

匹配组将是99.

"共有99个粉丝"

它不会匹配,因为那里有第二个数字.

要了解更多关于Python的正则表达式,你可以阅读各种 网站 的网页.要快速提醒,请在Python解释器中执行以下操作:

>>> import re
>>> help(re)
Run Code Online (Sandbox Code Playgroud)

当您从网页"抓取"文本时,有时可能会违反HTML代码.通常,正则表达式不是忽视HTML或XML标记的好工具(参见此处); 你可能会更好地使用Beautiful Soup来解析HTML并提取文本,然后使用正则表达式来获取你真正想要的文本.

我希望这很有趣和/或有教育意义.