HTML内容提取的最新技术是什么?

Cha*_*art 18 html text-extraction html-content-extraction

HTML内容提取方面有很多学术工作,例如Gupta&Kaiser(2005)从可访问网页中提取内容,以及一些感兴趣的迹象,例如,,,但我不是很清楚后者的实践如何反映前者的思想.什么是最佳做法?

指向良好(特别是开源)实现的指针以及对实现的良好学术调查将是我正在寻找的那种东西.

后记第一:准确地说,我所追求的那种调查将是一篇论文(已发表,未发表,无论如何),它讨论了学术文献中的两个标准,以及一些现有的实施,并分析了实施的不成功之处.从标准的角度来看.而且,真的,邮件列表的帖子对我也有用.

后记第二章要明确一点,在Peter Rowell的答案之后,我已经接受了,我们可以看到这个问题导致了两个问题:(i)解决了不符合要求的HTML的问题,其中最好推荐使用Beautiful Soup解决方案,以及(ii)未解决的问题或从肉类中分离出来的(主要是现场添加的样板和宣传材料)(认为页面可能有趣的人的内容实际上相关的内容.解决现有技术问题,新的答案需要明确地解决愚蠢的问题.

Pet*_*ell 18

提取对不同的人来说意味着不同的东西.能够处理所有受损的HTML是一回事,而Beautiful Soup在这个部门是一个明显的赢家.但BS不会告诉你什么是残酷的,什么是肉.

当从计算语言学家的角度考虑内容提取时,事情看起来不同(并且丑陋).在分析页面时,我只对页面的特定内容感兴趣,减去所有导航/广告/等.残余.并且你不能开始做有趣的事情 - 共同出现分析,短语发现,加权属性向量生成等 - 直到你摆脱了残余.

OP引用的第一篇论文表明这是他们试图实现的 - 分析一个站点,确定整体结构,然后减去那个和Voila!你只有肉 - 但他们发现它比他们想象的更难.他们从改进的可访问性角度来解决问题,而我是一个早期搜索的人,但我们都得出了相同的结论:

将肉与肉分开很难.并且(在您的问题的行之间阅读)即使删除了残骸,没有仔细应用语义标记,确定文章的"作者意图" 是非常困难的.从像citeseer这样的网站中获取肉类(干净且可预测地布置具有非常高的信噪比)比处理随机网络内容容易2或3个数量级.

顺便说一句,如果你正在处理更长的文件,你可能对Marti Hearst(现在是加州大学伯克利分校的教授)所做的工作特别感兴趣.她的博士论文和其他关于在大型文档中进行子主题发现的论文让我对在较小的文档中做类似的事情有了很多见解(令人惊讶的是,这可能更难以处理).但是你只有在摆脱了残余之后才能做到这一点.


对于可能感兴趣的少数人来说,这里有一些背景故事(可能是关闭主题,但我今晚有这种心情):

在80年代和90年代,我们的客户大多是政府机构,他们的眼睛大于他们的预算,他们的梦想让迪斯尼乐园看起来很单调.他们正在收集他们可以得到的所有东西,然后去寻找一种银弹技术,以某种方式(巨手波)提取文件的"意义".对.他们找到了我们,因为我们是这个奇怪的小公司在1986年进行"内容相似性搜索".我们给了他们几个演示(真实的,不是假的)吓坏了他们.

我们已经知道的事情之一(他们花了很长时间才相信我们)是每个系列都不同,需要它自己的特殊扫描仪来处理这些差异.例如,如果您所做的只是直接报道报道故事,那么生活就很容易.标题主要是告诉你一些有趣的东西,故事是用金字塔形式写的 - 第一段或第二段有谁/什么/何时/什么时候的肉,然后在后面的章节展开.就像我说的,这很容易.

杂志文章怎么样?天哪,不要让我开始!标题几乎总是毫无意义,结构从一个mag到另一个不同,甚至从mag的一个部分到下一个部分.拿起一份有线和大西洋月刊的副本.查看一篇重要文章,并尝试找出一篇有意义的 1段文章摘要.现在尝试描述一个程序如何完成同样的事情.所有文章都适用同一套规则吗?甚至同一杂志的文章?不,他们没有.

抱歉听起来像个傻瓜,但这个问题真的很难.

奇怪的是,谷歌成功的一个重要原因(从搜索引擎的角度来看)是他们非常重视来自另一个网站的链接中的文字.该链接文本代表了一种人类对其链接的网站/页面所做的迷你摘要,正是您在搜索时所需要的.它适用于几乎所有类型/布局风格的信息.这是一个非常出色的洞察力,我希望自己拥有它.但它不会对我的客户有任何好处,因为从昨晚的莫斯科电视节目列表到他们捕获的一些随机电传消息,或者一些严重的OCR版本的埃及报纸都没有链接.

/迷你咆哮和行程向下内存车道

  • 嗯,这很复杂.首先,谷歌总是向您显示页面的TITLE标签中的内容.当你把"围绕你的查询,从而迫使它做相当标准的SE类型的东西时,谷歌会进行短语搜索.但是当你*不*在查询周围加上引号时,那就是他们可以开始玩乐的时候.尝试谷歌搜索*剪羊毛打鼾*(没有引号)并点击第二篇文章的缓存链接.结果是该页面上没有出现"打鼾",只发生在链接到它的页面上.如果你想追求这个,请给我发电子邮件进一步:stackoverflow@techbuddy.us (3认同)

Chr*_*ter 14

一句话:煮沸管.

对于新闻领域,在代表性语料库中,我们现在提取精度为98%/ 99%(平均/中位数)

也非常语言独立(今天,我已经知道它也适用于尼泊尔语).

免责声明:我是这项工作的作者.


hip*_*ail 6

你看过锅管吗?在类似的问题中发现了它.


Liz*_*ard 5

我遇到过http://www.keyvan.net/2010/08/php-readability/

去年,我将Arc90的可读性移植到Five Filters项目中.现在已经超过一年了,Readability已经有了很大改进 - 感谢Chris Dary和Arc90团队的其他成员.

作为全文RSS服务更新的一部分,我开始将更新版本(1.6.2)移植到PHP,代码现在已经在线.

对于不熟悉的人,可读性被创建用作浏览器插件(书签).只需单击一下,它就可以转换网页,以便于阅读并消除混乱.Apple最近将其整合到Safari Reader中.

它对于内容提取也非常方便,这就是我想首先将它移植到PHP的原因.