搜索字符串算法

Question

我试图从一组网站(其中数千个)获取内容页面中的联系信息.在我挠头之前,我想问过像你这样的专家.我需要的只是地址,电子邮件ID,电话号码和联系人信息(如果有).

我想你已经理解了这个问题.是的,它是格式化...因为网站没有标准格式,所以很难确定我需要的确切信息.有些网站设计有flash联系我们页面,其他一些网站将联系信息设计为带有自定义字体的图像类型.

并且欢迎提示/想法/建议......

谢谢....

Answer 1

这正如您所料,绝不是一项微不足道的任务.这是接近这个的一种方法:

使用反向索引系统(如Lucene/Solr或Sphinx)来索引页面.您可能需要编写自己的爬虫/蜘蛛.Apache Nutch和其他爬虫开箱即用.如果内容相当静态,请在本地将其下载到您的系统.
内容编入索引后,您可以通过构建布尔查询来查询电子邮件地址,电话号码等,例如://用于电子邮件//用于电话#括号内容:@ AND(内容:.COM或内容: NET)或内容:"("OR内容:")"`重要:上述代码不应按字面意思理解.您可以通过使用Lucene Regex Query&Span Query来获得更高级的查询,这可以让您构建非常复杂的查询.
最后在结果页面上,(a)运行结果荧光笔以获取查询词周围的片段,并且(b)在片段上运行正则表达式以提取出感兴趣的字段.
如果你有一个北美地址数据集,你可以运行多遍来验证地址,i)地图提供者,如Bing地图,或谷歌地图,以验证地址.据我所知,USPS和其他人提供收费的有效地址查询,以验证美国邮政编码和加拿大邮政编码.或者,ii)电子邮件地址的反向DNS查询等等....

这应该让你开始....就像我说的,这里没有单一的最佳解决方案,你需要尝试多种方法来迭代并达到你想要的准确度.

希望这可以帮助.