bar*_*red 5 html java markdown
我想保存文本,我从各种来源刮掉没有上面的HTML标签,但也保留了我合理的结构.
Markdown似乎是解决这个问题的方法(或者可能是MultiMarkdown).
有一个问题提供了从HTML转换为markdown的建议,但我想指定一些特定的东西:
所以我的问题如标题所述:Markdown Java API是否有一个像样的,可定制的HTML?
您可以尝试调整HtmlCleaner,它在 DOM 上提供了一个可行的界面:
TagNode root = htmlCleaner.clean( stream );
Object[] found = root.evaluateXPath( "//div[id='something']" );
if( found.length > 0 && found instanceof TagNode ) {
((TagNode)found[0]).removeFromTree();
}
Run Code Online (Sandbox Code Playgroud)
这将允许您使用相当简单的 API 以任何您想要的格式构建输出流。