从HTML(Delphi)获取渲染的文本

Dai*_*tsu 5 html delphi html-parsing html-content-extraction

我有一些HTML,我需要从页面中提取实际的书面文本。

到目前为止,我已经尝试过使用Web浏览器并呈现页面,然后转到document属性并获取文本。这有效,但仅在支持浏览器的地方(IE com对象)。问题是我希望它也能够在wine下运行,所以我需要一个不使用IE COM的解决方案。

必须有合理的编程方式来做到这一点。

Jos*_*ley 4

我不确定在 Delphi 中解析 HTML 的推荐方法是什么,但如果是我,我会很想捆绑 html2text 的副本(该名称的较旧的C++ 程序或较新的Python 程序)和产生对其中之一的调用。

您可以使用py2exe将 Python html2text 转换为可执行文件。这两个 html2text 程序都是根据 GPL 获得许可的,但只要您只是将它们的可执行文件与您的应用程序捆绑在一起,并根据 GPL 的限制提供它们的源代码,那么您应该没问题。