相关疑难解决方法(0)

如何在PHP中解析和处理HTML/XML？

如何解析HTML/XML并从中提取信息？

php xml parsing html-parsing xml-parsing

Rob*_*itt

2019 04-15

2071
推荐指数

28
解决办法

40万
查看次数

创建伟大的解析器 - 从HTML /博客中提取相关文本

我正在尝试创建一个在Blog Posts上运行良好的通用HTML解析器.我想将我的解析器指向特定的entrie的URL并获取帖子本身的干净文本.我的基本方法(来自python)一直使用BeautifulSoup/Urllib2的组合,这没关系,但它假设你知道博客条目的正确标签.有没有人有更好的想法？

以下是一些可能有人可以扩展的想法,我没有足够的知识/技术诀窍尚未实现.

unix程序'lynx'似乎特别好地解析了博客文章 - 他们使用了什么解析器,或者如何利用它？
是否有任何服务/解析器可以自动删除垃圾广告等？
在这种情况下,我有一个模糊的概念,即博客帖子通常包含在某个带有class ="entry"或类似内容的定义标签中,这可能是一个好的假设.因此,有可能创建一个算法,找到它们之间最干净的文本的封闭标签 - 对此有何想法？

谢谢!

html parsing text-parsing html-content-extraction

作者

2010 01-03

22
推荐指数

1
解决办法

5663
查看次数