awk match() - 每行多个

Question

我在gawk中使用match()函数来获取HTML文件中的链接..正则表达式是这样的:

match($0, /(<a href=\")([^\"]+)/, arr)

我似乎无法在最后使用"/ g"选项来获得每行多个匹配？

Answer 1

那是正确的.AWK正则表达式没有标志.
此外,没有内置支持match查找第二次或以后的比赛.
只有gsub和gensub功能有这个.
我会尝试这样的事情:

gensub(/.*<a href=\"([^\"]+)/, "\1%", "g")
last = split($0, "%", arr)
delete arr[last]

where %是一个你可以保证在输入中找不到的字符串.