小编Jon*_*nas的帖子

哪种数据库技术适用于大结构化数据？

场景：假设您的 200 个表中有 90TB 的文本。这是结构化的相关数据。相比dbpedia只是数据更多。任何真正关系型、分布式和高性能的数据库都可以完成这项工作。不要\xe2\x80\x99 期望像社交网络那样多的更新，但大约 500 次读取查询/秒 20 次更新/秒，但除此之外所需的主要功能是高速对数据库进行大型分析，因为数据将通过机器进行重新处理和改进像 apache mahout 一样不断学习。

\n\n

现在的第一个问题是，从哪些数据库技术开始（或等待它们被释放）来首先维护所有数据，网络访问者数量相对较少，但对快速分析/机器学习的要求很高？其次，为了可能发生的特殊目的而跟踪哪些其他数据库，以及哪些数据库应从列表中删除或成对放置，哪些数据库应仅应用一个（/更好的）。

\n\n

Cloudera/Brisk (Cassandra,Hive)\nmysql(cluster), mariadb\nBerkeley DB\ndrizzle, nimbusdb,\nscidb (http://www.theregister.co.uk/2010/09/13/michael_stonebraker_interview/)\nmongodb\ndatadraw\nneo4j\n

Run Code Online (Sandbox Code Playgroud)\n

mysql cloud bigtable mongodb cassandra

Jon*_*nas

2011 04-23

5
推荐指数

1
解决办法

595
查看次数