Markdown Java API是否有一个像样的,可定制的HTML?

bar*_*red 5 html java markdown

我想保存文本,我从各种来源刮掉没有上面的HTML标签,但也保留了我合理的结构.

Markdown似乎是解决这个问题的方法(或者可能是MultiMarkdown).

一个问题提供了从HTML转换为markdown的建议,但我想指定一些特定的东西:

  • 所有链接(包括图像)仅在END处引用(即没有内联网址)
  • 没有嵌入HTML(我甚至不能100%确定我如何处理困难的HTML ...但它不会被嵌入!)

所以我的问题如标题所述:Markdown Java API是否有一个像样的,可定制的HTML?

Gar*_*owe 2

您可以尝试调整HtmlCleaner,它在 DOM 上提供了一个可行的界面:

TagNode root = htmlCleaner.clean( stream );
Object[] found = root.evaluateXPath( "//div[id='something']" );
if( found.length > 0 && found instanceof TagNode ) {
    ((TagNode)found[0]).removeFromTree();
}
Run Code Online (Sandbox Code Playgroud)

这将允许您使用相当简单的 API 以任何您想要的格式构建输出流。