我试图用awk解析HTML文档.
该文件包含几个<div class="p_header_bottom"></div块
<div class="p_header_bottom">
<span class="fl_r"></span>
287,489 people
</div>
<div class="p_header_bottom">
<span class="fl_r"></span>
5 links
</div>
Run Code Online (Sandbox Code Playgroud)
我在用
awk '/<div class="p_header_bottom">/,/<\/div>/'
收到所有这样的div.
我如何287,489从第一个获得数字?
实际上awk '/<\/span>/,/people/'不能正常工作.
使用gawk,并假设每个<div> </div>块中的唯一数字和逗号出现在感兴趣的数字部分中
awk -v RS='<[/]?div[^>]*>' '/span/ && /people/{gsub(/[^[:digit:],]/, ""); print}' file.txt
Run Code Online (Sandbox Code Playgroud)