jon*_*ger 3 regex shell awk gawk match
我在gawk中使用match()函数来获取HTML文件中的链接..正则表达式是这样的:
match($0, /(<a href=\")([^\"]+)/, arr)
Run Code Online (Sandbox Code Playgroud)
我似乎无法在最后使用"/ g"选项来获得每行多个匹配?
那是正确的.AWK正则表达式没有标志.
此外,没有内置支持match查找第二次或以后的比赛.
只有gsub和gensub功能有这个.
我会尝试这样的事情:
gensub(/.*<a href=\"([^\"]+)/, "\1%", "g")
last = split($0, "%", arr)
delete arr[last]
Run Code Online (Sandbox Code Playgroud)
where %是一个你可以保证在输入中找不到的字符串.