相关疑难解决方法(0)

可读性用于从URL中提取文本的算法是什么?

有一段时间,我一直试图找到一种方法,通过消除与广告和所有其他杂乱相关的文本,智能地从URL中提取"相关"文本.经过几个月的研究,我把它作为一个问题放弃了无法准确确定.(我尝试了不同的方法,但没有一个是可靠的)

一周后,我偶然发现了Readability - 一个将任何URL转换为可读文本的插件.它看起来非常准确.我的猜测是,他们以某种方式拥有足够聪明的算法来提取相关文本.

有谁知道他们是怎么做到的?或者我怎么能可靠地做到这一点?

javascript asp.net extraction

102
推荐指数
4
解决办法
2万
查看次数

Evernote Web Clipper如何很好地解析网页?

我一直在尝试在python中复制Evernote Web Clipper的解析功能,用于我自己的网络抓取项目.我只对提取文本主体感兴趣,没有别的.

我已经使用了python Arc90端口:

https://github.com/buriy/python-readability

结合aaronsw的精彩html2text库:

https://github.com/aaronsw/html2text

这在大多数情况下都会产生很好的效果,但是Evernote在抓取主体文本方面要好得多.

有人可以推荐一个更好的方法,或者告诉我Evernote正在做什么.

谢谢!

python screen-scraping evernote web-scraping

7
推荐指数
0
解决办法
1281
查看次数