小编Loï*_* N.的帖子

使用 pandoc 将 html 转换为 json

我正在尝试使用 html 并生成一些保持相同结构的 json。

我正在尝试使用 pandoc,因为我之前使用 pandoc 将内容从格式 A 转换为格式 B 方面取得了一些成功。

我正在尝试转换此文件:

示例.html

<p>Hello guys! What's up?</p>
Run Code Online (Sandbox Code Playgroud)

使用命令:

pandoc -f html -t json example.html
Run Code Online (Sandbox Code Playgroud)

我期望的是这样的:

[{ "p": "Hello guys! What's up?"}]
Run Code Online (Sandbox Code Playgroud)

我得到的是:

[
  { "Para":
    [
      {"t": "Str", "c": "Hello"},
      {"t": "Space"},
      {"t": "Str", "c": "guys!"},
      {"t": "Space"},
      {"t": "Str", "c": "What's"},
      {"t": "Space"},
      {"t": "Str", "c": "up?"}
    ]
  }
]
Run Code Online (Sandbox Code Playgroud)

问题似乎是,当 pandoc 读取文本内容时,它会根据空格字符分隔每个单词并从中生成一个数组,而我希望 pandoc 能够理解整个字符串是单个元素。

我是 pandoc 的初学者,我一直无法找到如何调整这种行为。

您知道如何获得所需的输出吗?你知道另一种可以做到这一点的工具吗?工具或其编写的语言无关紧要。

谢谢。

编辑:您可以在pandoc 在线工具在线测试该行为。

编辑 …

html json format-conversion pandoc

7
推荐指数
1
解决办法
1143
查看次数

标签 统计

format-conversion ×1

html ×1

json ×1

pandoc ×1