从文本文件中提取以 http 或 https 开头并以 html 结尾的所有 URL

Question

我想使用 grep 命令从文本文件中提取以 http:// 开头（不确定里面是否有 https://）并以 .html 结尾的每个链接。

我遇到的问题是文件太大并且有很多链接......

我试过这个：

grep "/http:\/\/.*?\.html/"  filename.txt > newFile.txt

但我得到一个空文件，就像这样：

grep -Eo "(http|https)://[a-zA-Z0-9]./(html)" filename.txt > newFile.txt

谁能帮我？

为了确保我们处于同一轨道上，我想提取新文件的所有链接并每行 1 个链接。

Answer 1

您可以使用：

grep -Eo "https?://\S+?\.html" filename.txt > newFile.txt

https://这将匹配前后1 个或多个非空格字符.html