你知道任何大型数据集来试验免费/低成本的Hadoop吗?任何相关的指针/链接都表示赞赏.
Prefernce:
至少一GB的数据.
Web服务器的生产日志数据.
到目前为止我发现的很少:
我们也可以运行自己的爬虫来收集来自维基百科等网站的数据吗?关于如何做到这一点的任何指针也受到赞赏.
我是CouchDB的新手并且了解它.我没有遇到CouchDB对参照完整性的支持.我们可以在CouchDB文档中为字段创建外键吗?
例如,是否可以确保供应商数据库中提供订单文档中使用的供应商名称?
CouchDB是否支持参照完整性?是否可以将文档中的字段作为主键?
CouchDB如何在进行双向复制时处理冲突?
例如:假设有两个地址簿数据库(在服务器A和B中).杰克有一份文件,其中包含杰克的详细联系方式.
couchDB如何处理它?如果我们在Java程序中启动复制,有没有办法知道java程序是否有任何冲突?
如果文件数量更多,CouchDB中的数据查询速度会变慢吗?
示例场景:
问题:查询数据库是否需要超过2 - 3秒才能找到匹配的客户名称?如果CouchDB中有很多文档(例如大约100000个文档),查询是否会为每个查询花费更多时间?
有关如何创建视图/索引的任何指针都会有所帮助.
提前致谢.
couchdb ×3
conflict ×1
hadoop ×1
opendata ×1
performance ×1
replication ×1
resources ×1
rfc ×1