Python,使用正则表达式在文件中搜索html标签

Question

Python,使用正则表达式在文件中搜索html标签

所以我正在做一些数据分析,我需要从数百个HTML和SHTML文件中提取页面标题,痕迹,h1标签.

这些标签采用以下格式(意思是内容和面包屑):

<title>Mapping a Drive: Macintosh OSX &lt; Mapping a Drive &lt; eHelp &lt; Cal Poly Pomona</title>

<p><!-- InstanceBeginEditable name="breadcrumb" --><a href="../index.html">eHelp</a> &raquo; <a href="index.shtml">Mapping a Drive</a> &raquo; Mac OS X<!-- InstanceEndEditable --></p>


<h1><a name="contentstart" id="contentstart"></a><!-- InstanceBeginEditable name="page_heading" --><a name="top" id="top"></a>Mapping a Drive:<span class="goldletter"> Macintosh </span>OS X  <!-- InstanceEndEditable --></h1>

Run Code Online (Sandbox Code Playgroud)

获得这些标签后,我想进一步提取标题的第一部分Mapping a Drive: Macintosh OSX,最后一部分的痕迹Mac OS X和整个h1Mapping a Drive: Macintosh OSX

知道如何实现这一点吗？

Answer 1

Ned*_*der 6

使用真正的HTML解析器,而不是正则表达式.你会更快乐. lxml.html受到高度重视BeautifulSoup.

归档时间：	14 年，5 月前
查看次数：	1201 次
最近记录：	14 年，5 月前