我正在尝试使用 html 并生成一些保持相同结构的 json。
我正在尝试使用 pandoc,因为我之前使用 pandoc 将内容从格式 A 转换为格式 B 方面取得了一些成功。
我正在尝试转换此文件:
示例.html
<p>Hello guys! What's up?</p>
Run Code Online (Sandbox Code Playgroud)
使用命令:
pandoc -f html -t json example.html
Run Code Online (Sandbox Code Playgroud)
我期望的是这样的:
[{ "p": "Hello guys! What's up?"}]
Run Code Online (Sandbox Code Playgroud)
我得到的是:
[
{ "Para":
[
{"t": "Str", "c": "Hello"},
{"t": "Space"},
{"t": "Str", "c": "guys!"},
{"t": "Space"},
{"t": "Str", "c": "What's"},
{"t": "Space"},
{"t": "Str", "c": "up?"}
]
}
]
Run Code Online (Sandbox Code Playgroud)
问题似乎是,当 pandoc 读取文本内容时,它会根据空格字符分隔每个单词并从中生成一个数组,而我希望 pandoc 能够理解整个字符串是单个元素。
我是 pandoc 的初学者,我一直无法找到如何调整这种行为。
您知道如何获得所需的输出吗?你知道另一种可以做到这一点的工具吗?工具或其编写的语言无关紧要。
谢谢。
编辑:您可以在pandoc 在线工具上在线测试该行为。
编辑 …