小编SnZ*_*SnZ的帖子

re.findall问题(重复)

我试图获取4chan网站的源代码,并获得线程的链接.

我有regexp的问题(不工作).资源:

import urllib2, re

req = urllib2.Request('http://boards.4chan.org/wg/')
resp = urllib2.urlopen(req)
html = resp.read()

print re.findall("res/[0-9]+", html)
#print re.findall("^res/[0-9]+$", html)
Run Code Online (Sandbox Code Playgroud)

问题是:

print re.findall("res/[0-9]+", html)
Run Code Online (Sandbox Code Playgroud)

给予重复.

我不能用:

print re.findall("^res/[0-9]+$", html)
Run Code Online (Sandbox Code Playgroud)

我已经阅读过python docs,但是他们没有帮助.

html python regex

3
推荐指数
1
解决办法
3026
查看次数

标签 统计

html ×1

python ×1

regex ×1