相关疑难解决方法(0)

除了XHTML自包含标记之外,RegEx匹配开放标记

我需要匹配所有这些开始标记:

<p>
<a href="foo">
Run Code Online (Sandbox Code Playgroud)

但不是这些:

<br />
<hr class="foo" />
Run Code Online (Sandbox Code Playgroud)

我想出了这个,并希望确保我做对了.我只抓住了a-z.

<([a-z]+) *[^/]*?>
Run Code Online (Sandbox Code Playgroud)

我相信它说:

  • 找一个小于,然后
  • 然后,查找(并捕获)az一次或多次
  • 然后找到零个或多个空格
  • 找到任何字符零次或多次,贪婪/,然后
  • 找到一个大于

我有这个权利吗?更重要的是,你怎么看?

html regex xhtml

1323
推荐指数
36
解决办法
270万
查看次数

用于HTML解析的Python正则表达式(BeautifulSoup)

我想在HTML中获取隐藏输入字段的值.

<input type="hidden" name="fooId" value="12-3456789-1111111111" />
Run Code Online (Sandbox Code Playgroud)

我想在Python中编写一个正则表达式,它将返回值fooId,因为我知道HTML中的行遵循格式

<input type="hidden" name="fooId" value="**[id is here]**" />
Run Code Online (Sandbox Code Playgroud)

有人可以在Python中提供一个示例来解析HTML的值吗?

python regex screen-scraping

11
推荐指数
4
解决办法
3万
查看次数

在python中使用正则表达式的问题

好吧,所以我正在使用正则表达式来搜索站点中的所有标题信息.

我编译了正则表达式:

regex = re.compile(r'''
    <h[0-9]>\s?
    (<a[ ]href="[A-Za-z0-9.]*">)?\s?
    [A-Za-z0-9.,:'"=/?;\s]*\s?
    [A-Za-z0-9.,:'"=/?;\s]?
''',  re.X)
Run Code Online (Sandbox Code Playgroud)

当我在python reg ex中运行它时.测试员,它非常好用.

样本数据:

<body>
    <h1>Dog </h1>
    <h2>Cat </h2>
    <h3>Fancy </h3>
    <h1>Tall cup of lemons</h1>
    <h1><a href="dog.com">Dog thing</a></h1>
</body>
Run Code Online (Sandbox Code Playgroud)

现在,在REDemo中,它运行得非常好.

但是,当我把它放在我的python代码中时,它只会打印出来 <a href="dog.com">

这是我的python代码,我不确定我是做错了什么还是翻译时丢失了什么.我感谢您的帮助.

stories=[]
response = urllib2.urlopen('http://apricotclub.org/duh.html')
html = response.read().lower()
p = re.compile('<h[0-9]>\\s?(<a href=\"[A-Za-z0-9.]*\">)?\\s?[A-Za-z0-9.,:\'\"=/?;\\s]*\\s?[A-Za-z0-9.,:\'\"=/?;\\s]?')
stories=re.findall(p, html)
for i in stories:
    if len(i) >= 5:
        print i 
Run Code Online (Sandbox Code Playgroud)

我还应该注意,当我(<a href=\"[A-Za-z0-9.]*\">)?从正则表达式中取出它时,它适用于非链接<hN>行.

html python regex

2
推荐指数
1
解决办法
1020
查看次数

标签 统计

regex ×3

html ×2

python ×2

screen-scraping ×1

xhtml ×1