小编Kon*_*inK的帖子

什么数据库的爬虫/刮刀?

我目前正在研究用于我正在进行的项目的数据库.希望你们能给我一些提示.

该项目是一个自动网络爬虫,可根据用户的请求检查网站,在某些情况下擦除数据,并创建所做内容的日志文件.

要求:

  • 只有少数几列的表格; 预定义列没有问题
  • 模型之间没有过于复杂的关联
  • 大量基于日期和时间的查询
  • 由于日志记录,数据库将迅速增长并占用大量空间
  • 应该能够扩展到多个服务器
  • 字段主要包含ids(int),字符串(最多约200-500个字符)和unix时间戳
  • 两种不同类型的服务器将同时直接读取/写入数据:
    • 一个(/更多)rails应用程序,它接受用户输入并根据请求显示结果
    • 一个(/更多)Node.js服务器,用作执行爬虫/刮刀.它将有足够的负载连续运行并每秒进行数十次数据库查询.

我假设它既不是图形数据库(没有复杂的关联),也不是基于内存的键/值存储(缓存中容纳的数据太多).对于我能找到的其他类型的数据库,我仍然处于困境之中,每个数据库似乎都有它的优点.

那么,专业人士的任何建议我应该如何决定?

谢谢.

sql database screen-scraping web-crawler nosql

8
推荐指数
2
解决办法
6568
查看次数

标签 统计

database ×1

nosql ×1

screen-scraping ×1

sql ×1

web-crawler ×1