vgo*_*ani 7 python screen-scraping evernote web-scraping
我一直在尝试在python中复制Evernote Web Clipper的解析功能,用于我自己的网络抓取项目.我只对提取文本主体感兴趣,没有别的.
我已经使用了python Arc90端口:
https://github.com/buriy/python-readability
结合aaronsw的精彩html2text库:
https://github.com/aaronsw/html2text
这在大多数情况下都会产生很好的效果,但是Evernote在抓取主体文本方面要好得多.
有人可以推荐一个更好的方法,或者告诉我Evernote正在做什么.
谢谢!
| 归档时间: |
|
| 查看次数: |
1281 次 |
| 最近记录: |