Python:需要使用正则表达式从html页面中提取标记内容,而不是BeautifulSoup

Question

Python:需要使用正则表达式从html页面中提取标记内容,而不是BeautifulSoup

我有一个要求,我必须提取<raw>标签内的内容.例如,我需要提取abcd并efgh从这个HTML片段:
<html><body><raw somestuff>abcd</raw><raw somesuff>efgh</raw></body></html>

我在我的python中使用了这段代码
re.match(r'.*raw.*(.*)/raw.*', DATA)

但这不会返回任何子字符串.我不擅长正则表达式.因此,对此或新解决方案的更正将对我有所帮助.我不应该使用外部库(由于我公司的一些限制).

Answer 1

jef*_*150 6

贵公司确实需要重新考虑他们的政策.重写XML解析器完全是浪费时间,已经有几个用于Python.一些包含在stdlib中,所以如果可以,import re您也应该被允许import xml.etree.ElementTree或在http://docs.python.org/library/markup.html上列出任何其他内容.

你真的应该使用其中之一.没有意义重复所有这些工作.

归档时间：	15 年前
查看次数：	2523 次
最近记录：	7 年，5 月前