如何检测像Evernote clipper这样的主要文章标签

yel*_*ver 8 javascript html5 evernote

当我尝试使用Evernote clipper扩展时,我看到了一个非常有用的功能.当我点击"文章"时,它给了我一个非常正确的页面主要内容.当我使用Evernote Clipper页面https://developer.chrome.com/extensions/api_index时,看看结果 在页面中提取文章

我查看了evernote字段出来的主要文章,在几个页面中,文章实际上是从第一篇文章标签中提取的.然而,evernote clipper仍然适用于页面不使用那种标签.

我想知道Evernote剪刀能做到这一点吗?是否有任何js库支持来检测包含页面主要内容的主标记.你能给我一些建议去做吗?

先感谢您!

小智 10

据我所知,没有通用的js lib可以做到这一点.Evernote限幅器使用自己的方法从网页中提取"有趣"的内容.您可以访问Evernote限幅器的代码以尝试了解该过程.

在我的Mac上,chrome扩展程序的路径是:

〜/ Library/Application Support/Google/Chrome/Default/Extensions/pioclpoplcdbaefihamjohnefbikjilc/6.2_0 /

这是另一种工作方式几乎相同:https: //www.readability.com/

您还可以检查此线程:可读性用于从URL中提取文本的算法是什么?

或者在Google上搜索"内容提取js lib"之类的术语.(发现这个:https://github.com/hatena/extract-content-javascript)

希望这可以帮助