以文本形式获取 curl 中的页面

Alb*_*ert 4 lynx curl

是否有任何选项curl可以将页面保存为文本

我的意思是,就像一个页面可以在浏览器中保存为Text Files 一样。至少,Firefox 有这个选项。

我需要它作为脚本,我只是做一些类似的事情

curl -s http://... 
Run Code Online (Sandbox Code Playgroud)

但是如果没有所有的 html 代码,它会让事情更容易处理。

我找到了一个选项,lynx可以实现我想要的:lynx -dump,但我宁愿使用curl.

谢谢。

小智 9

您可以考虑pandoc,它是一个功能强大的工具,可将文件从一种标记格式转换为另一种标记格式。

curl -s URL | pandoc -f html -t plain
Run Code Online (Sandbox Code Playgroud)

使用起来很简单:

pandoc [OPTIONS] [FILES]
  -f FORMAT, -r FORMAT  --from=FORMAT, --read=FORMAT                    
  -t FORMAT, -w FORMAT  --to=FORMAT, --write=FORMAT                     
  -o FILE               --output=FILE                                   
                        --data-dir=DIRECTORY
Run Code Online (Sandbox Code Playgroud)

键入pandoc --list-input-formatpandoc --list-output-formats了解您可以移动的格式。


Jsh*_*ura 5

不,您可以lynx为此使用:

lynx -dump URL
Run Code Online (Sandbox Code Playgroud)

更新。行动。对不起。我没有看到你知道lynx。

我建议lynx用于此目的。它通常会产生非常可读的输出。有时您应该使用-width选项来增加输出的宽度。

  • 我刚刚检查过 - 来自 Virtual Box 的 xubunutu 14.04 的 lynx 和来自同一个我的 Windows 框的 Cygwin 给出了相同的输出。Diff 显示没有差异) (2认同)