基于 Java 的可读性类解析器

Pre*_*hev 2 java readability html-parsing

我想知道有哪些独立选项可用于解析普通网页并将其转换为易于阅读的格式,由 Pocket、Readability 和 Instapaper 等服务提供。

我主要是在寻找一个 Java 解析器库来包含在我的应用程序中,但总的来说,各种独立工具都受到赞赏。

谢谢。

dan*_*ito 6

Snackatory 现在自己声明它已经过时并建议使用Crux

但还有Readability4J。它是 Mozilla 的 Readability.js 的 Kotlin 端口,用于 Firefox 的阅读器视图。因此 Readability4J 的输出与 Firefox 的阅读器视图完全匹配。

免责声明:我是 Readability4J 的作者。但我刚刚移植了它,感谢 Mozilla 的出色工作: https: //github.com/mozilla/readability


Ric*_*d H 5

我认为您是在Snacktory之后,它现在似乎是 Java 的最新技术,取代了 jreadability。