Joh*_*ohn 0 html tags perl expression
我想使用perl reg ex one liner来匹配段落标记的内容.该段落是这样的:
<p style="font-family: Calibri,Helvetica,serif;">Text I want to extract</p>
Run Code Online (Sandbox Code Playgroud)
所以我一直在使用这样的东西:
perl -nle 'm/<p>($.)<\/p>/ig; print $1' file.html
Run Code Online (Sandbox Code Playgroud)
任何想法都赞赏
谢谢
强制链接到尝试使用正则表达式解析HTML时发生的情况.
David Dorward的评论,使用HTML :: TreeBuilder,是一个很好的评论.另一个好方法是使用HTML :: DOM:
perl -MHTML::DOM -e 'my $dom = HTML::DOM->new(); $dom->parse_file("file.html"); my @p = $dom->getElementsByTagName("p"); print $p[0]->innerText();'
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2326 次 |
| 最近记录: |