为什么pandoc在将html转换为markdown时会保留span和div标签?

igo*_*udi 11 html markdown pandoc

我是一个pandoc新手,所以我必须遗漏一些明显的东西.我正在尝试将MS Word生成的HTML文件转换为markdown.这是一个测试html:

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
  <title></title>
</head>
<body>
  <div class="Section1">
    <p class="Question"><span style="FONT-SIZE: 10pt">Today</span> <span style=
    "FONT-SIZE: 10pt">is</span> <span lang="HR" style=
    "FONT-SIZE: 10pt; mso-ansi-language: HR">a</span><span style=
    "FONT-SIZE: 10pt">nice</span> <span style="FONT-SIZE: 10pt">day</span> 
    </p>
  </div>
</body>
</html>
Run Code Online (Sandbox Code Playgroud)

我尝试将其转换为:

pandoc -f html -t markdown test.html -o test.md
Run Code Online (Sandbox Code Playgroud)

我期待"今天是美好的一天",但得到了:

<div class="Section1">

<span style="FONT-SIZE: 10pt">Today</span> <span
style="FONT-SIZE: 10pt">is</span> <span lang="HR"
style="FONT-SIZE: 10pt; mso-ansi-language: HR">a</span><span
style="FONT-SIZE: 10pt">nice</span> <span
style="FONT-SIZE: 10pt">day</span>

</div>
Run Code Online (Sandbox Code Playgroud)

为什么div保持不变?为什么保持跨度?

mb2*_*b21 17

您需要关闭一些扩展程序.在HTML输入端:

$ pandoc -f html-native_divs-native_spans -t markdown test.html -o test.md
Run Code Online (Sandbox Code Playgroud)

或者在减价输出方面:

$ pandoc -f html -t markdown-raw_html-native_divs-native_spans-fenced_divs-bracketed_spans test.html -o test.md
Run Code Online (Sandbox Code Playgroud)