Man*_*nki 7 html html-content-extraction alchemyapi
我一直在做很多研究,以找出编写应用程序的最佳方法,以便从几乎任何HTML网页获取主要文章内容.我有一个使用libxml2来解析XML的C程序,但是我遇到了Alchemy API,它看起来像我想做的那样.
但是,它只有一个在线API,我想在不依赖任何外部调用的情况下将应用程序保留在内部.
那么有人有提示吗?我希望有一个离线替代方案,可以做Alchemy API可以做的事情(付费/非付费).
我的替代方案可能是解析HTML并使用NLP(自然语言处理)技术和其他方法来获取主要文章内容.它将被使用的网站类型包括带有新闻栏目或博客的网站.
有一些开源工具可以执行类似的文章提取任务。 https://github.com/jiminoc/goose ,由 Gravity.com 开源
它包含 wiki 上的信息以及您可以查看的源。有数十个单元测试显示从各种文章中提取的文本。