从Python库的角度来看,爬网,解析,索引,搜索之间有什么区别

Question

我对这些术语感到困惑.他们看起来和我一样.有人可以请解释一下他们执行的顺序以及哪些库可以完成工作的步骤.对我而言,它看起来都一样.

我想知道每一步输入是什么,输出e是什么

Crawling
Input = URL
Output = ?

Indexing
Input = ?

Answer 1

我会给你一个通用的描述,在算法上,对你的python库进行修改.

抓取:从一组URL开始,其目标是扩展集合的大小,它实际上跟随链接并尝试尽可能多地扩展图形(直到它覆盖连接到初始URL集的网络图或直到资源[通常是时间]到期).so:
input =一组URL
输出 =更大的URL集,可以从输入中访问

索引:使用抓取工具收集的数据来" 索引 "文件.index实际上是一个列表,它将集合中的每个术语(通常是单词)映射到该术语出现的文档
.input:URL
输出集:索引文件/库.

搜索:使用索引搜索给定查询的相关文档.
input:一个查询(String)和索引[通常它是一个隐式参数,因为它的部分状态..]
输出:相关文件到查询(文件实际上是一个网站,这里被抓了......)

我鼓励你看看PyLucene做了所有这些事情(还有更多!)......并阅读更多关于信息检索的内容