从网站中提取类似读者视图的内容的规则?

Qua*_*ite 5 html web-scraping

我正在尝试实现我自己的小阅读器视图应用程序(一个与 safari 上的阅读器模式做同样事情的应用程序),我发现有几件事我问自己:

  • 此功能是否有技术术语(阅读器视图并没有真正削减它)?
  • 是否有网站应该遵循的标准,以表明他们希望在读者视图中包含的内容
  • 是否有一套开源的 HTML 解析规则来从网站中提取“可读”内容?
  • 在几周内实现这样的事情对于一个人来说是不是太大了,如果是这样,我应该选择像 Instaparser 这样的服务吗?

bmc*_*ley 7

我相信原版是由 arc90 实现的,他们称之为可读性。你可以在这里查看他们的页面。

随着时间的推移,它已被移植到许多不同的语言,因此您可以查看不同的实现以了解有关它的更多信息,它是如何完成的等等。

这只是这里的一个小示例,如果您想找到更多示例,还有更多示例。

编辑:哎呀,经过更多的谷歌搜索后,我发现这个问题的答案很好地解释了它。