从文本文件中提取以 http 或 https 开头并以 html 结尾的所有 URL

Mor*_*eus 6 regex url grep

我想使用 grep 命令从文本文件中提取以 http:// 开头(不确定里面是否有 https://)并以 .html 结尾的每个链接。

我遇到的问题是文件太大并且有很多链接......

我试过这个:

grep "/http:\/\/.*?\.html/"  filename.txt > newFile.txt
Run Code Online (Sandbox Code Playgroud)

但我得到一个空文件,就像这样:

grep -Eo "(http|https)://[a-zA-Z0-9]./(html)" filename.txt > newFile.txt
Run Code Online (Sandbox Code Playgroud)

谁能帮我?

为了确保我们处于同一轨道上,我想提取新文件的所有链接并每行 1 个链接。

anu*_*ava 11

您可以使用:

grep -Eo "https?://\S+?\.html" filename.txt > newFile.txt
Run Code Online (Sandbox Code Playgroud)

https://这将匹配前后1 个或多个非空格字符.html