相关疑难解决方法(0)

2071
推荐指数
28
解决办法
40万
查看次数

创建伟大的解析器 - 从HTML /博客中提取相关文本

我正在尝试创建一个在Blog Posts上运行良好的通用HTML解析器.我想将我的解析器指向特定的entrie的URL并获取帖子本身的干净文本.我的基本方法(来自python)一直使用BeautifulSoup/Urllib2的组合,这没关系,但它假设你知道博客条目的正确标签.有没有人有更好的想法?

以下是一些可能有人可以扩展的想法,我没有足够的知识/技术诀窍尚未实现.

  1. unix程序'lynx'似乎特别好地解析了博客文章 - 他们使用了什么解析器,或者如何利用它?

  2. 是否有任何服务/解析器可以自动删除垃圾广告等?

  3. 在这种情况下,我有一个模糊的概念,即博客帖子通常包含在某个带有class ="entry"或类似内容的定义标签中,这可能是一个好的假设.因此,有可能创建一个算法,找到它们之间最干净的文本的封闭标签 - 对此有何想法?

谢谢!

html parsing text-parsing html-content-extraction

22
推荐指数
1
解决办法
5663
查看次数