场景:假设您的 200 个表中有 90TB 的文本。这是结构化的相关数据。相比dbpedia只是数据更多。任何真正关系型、分布式和高性能的数据库都可以完成这项工作。不要\xe2\x80\x99 期望像社交网络那样多的更新,但大约 500 次读取查询/秒 20 次更新/秒,但除此之外所需的主要功能是高速对数据库进行大型分析,因为数据将通过机器进行重新处理和改进像 apache mahout 一样不断学习。
\n\n现在的第一个问题是,从哪些数据库技术开始(或等待它们被释放)来首先维护所有数据,网络访问者数量相对较少,但对快速分析/机器学习的要求很高?其次,为了可能发生的特殊目的而跟踪哪些其他数据库,以及哪些数据库应从列表中删除或成对放置,哪些数据库应仅应用一个(/更好的)。
\n\nCloudera/Brisk (Cassandra,Hive)\nmysql(cluster), mariadb\nBerkeley DB\ndrizzle, nimbusdb,\nscidb (http://www.theregister.co.uk/2010/09/13/michael_stonebraker_interview/)\nmongodb\ndatadraw\nneo4j\nRun Code Online (Sandbox Code Playgroud)\n