如何在保留非降价HTML标记的同时将HTML转换为Markdown?

Jer*_*lim 15 markdown pandoc

我希望能够获取现有的HTML代码段并将其转换为markdown.为此我试过pandoc:

pandoc test.html -o test.md
Run Code Online (Sandbox Code Playgroud)

test.html看起来像这样:

Hello

<!-- more -->

and some more text

<h2>some heading</h2>       
Run Code Online (Sandbox Code Playgroud)

结果如下:

Hello and some more text

some heading
------------
Run Code Online (Sandbox Code Playgroud)

因此,它不仅可以转换在降价时具有直接含义的标签.它还删除了我想要保留为HTML的iframe标签(例如,HTML注释, 标签等).

  • 如何将HTML转换为markdown,使得任何没有markdown等效标记的标记都保留为原始HTML?
  • 更一般地说,如何控制HTML到降价转换的方式?

特别是,我对命令行程序选项感兴趣.例如,也许有可以提供给pandoc的选项.

Jer*_*lim 20

经过一些搜索,我在表解析--parse-raw线程中读到了关于该选项的选项.

添加--parse-raw选项似乎不会剥离非降价等效的HTML标记.

pandoc test.html -o test.md --parse-raw
Run Code Online (Sandbox Code Playgroud)

  • `--parse-raw/-R`已被删除.使用`+ raw_html`或`+ raw_tex`扩展名. (3认同)
  • @ZhuoerDong 2013,当评论被写入时,它仍然是pandoc 1.x,但是使用pandoc 2.x,你必须按照建议使用`+raw_html`或`+raw_tex`扩展 (2认同)