使用awk解析HTML代码段

Question

使用awk解析HTML代码段

我试图用awk解析HTML文档.

该文件包含几个<div class="p_header_bottom"></div块

 <div class="p_header_bottom">
    <span class="fl_r"></span>
    287,489 people
  </div>
  <div class="p_header_bottom">
    <span class="fl_r"></span>
    5 links
  </div>

Run Code Online (Sandbox Code Playgroud)

我在用

awk '/<div class="p_header_bottom">/,/<\/div>/'

收到所有这样的div.

我如何287,489从第一个获得数字？

实际上awk '/<\/span>/,/people/'不能正常工作.

Answer 1

iru*_*var 5

使用gawk,并假设每个<div> </div>块中的唯一数字和逗号出现在感兴趣的数字部分中

awk -v RS='<[/]?div[^>]*>' '/span/ && /people/{gsub(/[^[:digit:],]/, ""); print}' file.txt

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，2 月前
查看次数：	3305 次
最近记录：	12 年，2 月前