我有一个包含小型HTML文档的数据库,我需要以编程方式将几个插入到带有iText的PDF文档或带有Aspose.Words的Word文档中.我需要保留HTML文档中的任何格式(在合理范围内,尊重<b>标签是必须的,像<span style ="blah">这样的CSS是一个很好的选择).
iText和Aspose都可以(粗略地)工作:
Document document = new Document( Size.A4, Aspect.PORTRAIT );
document.setFont( "Helvetica", 20, Font.BOLD );
document.insert( "some string" )
document.setBold( true );
document.insert( "A bold string" );
Run Code Online (Sandbox Code Playgroud)
因此(我认为)我需要某种HTML解析器,我可以检查字符串和样式以插入到我的文档中.
任何人都可以建议一个好的图书馆或明智的方法解决这个问题吗?平台是Java
HTMLparser是一个很好的 HTML 解析器。
我在我的一个项目中使用它来解析 HTML。
你可以编写自己的过滤器来解析 HTML 以获得你想要的内容,因此标签
<br>
应该不难解析
你可以使用CssSelectorNodeFilter解析 CSS