Kon*_*inK 8 sql database screen-scraping web-crawler nosql
我目前正在研究用于我正在进行的项目的数据库.希望你们能给我一些提示.
该项目是一个自动网络爬虫,可根据用户的请求检查网站,在某些情况下擦除数据,并创建所做内容的日志文件.
要求:
我假设它既不是图形数据库(没有复杂的关联),也不是基于内存的键/值存储(缓存中容纳的数据太多).对于我能找到的其他类型的数据库,我仍然处于困境之中,每个数据库似乎都有它的优点.
那么,专业人士的任何建议我应该如何决定?
谢谢.
Google 建立了一个名为“BigTable”的数据库,用于抓取、索引和搜索相关业务。他们发布了一篇关于它的论文(如果您感兴趣,请谷歌搜索“BigTable”)。有几种类似 bigtable 的设计的开源实现,其中之一是Hypertable。我们有一篇博客文章描述了爬虫/索引器实现 ( http://hypertable.com/blog/sehrchcom_a_structed_search_engine_powered_by_hypertable/ ),由 sehrch.com 的人员编写。看看您的需求:所有这些都受支持并且都是常见用例。
(免责声明:我为 hypertable 工作。)
我同意弗拉基米尔的观点,即您需要考虑针对这种情况使用基于文档的数据库。我最熟悉的是 MongoDB。我在这里使用它的原因如下: