小编Sun*_*dar的帖子

免费的大型数据集来试验Hadoop

你知道任何大型数据集来试验免费/低成本的Hadoop吗?任何相关的指针/链接都表示赞赏.

Prefernce:

  • 至少一GB的数据.

  • Web服务器的生产日志数据.

到目前为止我发现的很少:

  1. 维基百科转储

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

我们也可以运行自己的爬虫来收集来自维基百科等网站的数据吗?关于如何做到这一点的任何指针也受到赞赏.

resources hadoop opendata

40
推荐指数
4
解决办法
4万
查看次数

CouchDB是否支持参照完整性?

我是CouchDB的新手并且了解它.我没有遇到CouchDB对参照完整性的支持.我们可以在CouchDB文档中为字段创建外键吗?

例如,是否可以确保供应商数据库中提供订单文档中使用的供应商名称?

CouchDB是否支持参照完整性?是否可以将文档中的字段作为主键?

referential-integrity couchdb

13
推荐指数
2
解决办法
4314
查看次数

CouchDB冲突解决方案

CouchDB如何在进行双向复制时处理冲突?

例如:假设有两个地址簿数据库(在服务器A和B中).杰克有一份文件,其中包含杰克的详细联系方式.

  1. 服务器A和B被复制,两者都具有相同版本的Jack文档.
  2. 在服务器A中,杰克的手机号码未更新.
  3. 在服务器B中,杰克的地址已更新.
  4. 现在,当我们进行双向复制时,存在冲突.

couchDB如何处理它?如果我们在Java程序中启动复制,有没有办法知道java程序是否有任何冲突?

replication couchdb conflict bidirectional

11
推荐指数
1
解决办法
3439
查看次数

CouchDB查询性能

如果文件数量更多,CouchDB中的数据查询速度会变慢吗?

示例场景:

  • 我有一个组合形式的组合框用于客户名称.当用户键入客户名称时,我必须进行自动填充.
  • CouchDB中将有大约10,000个客户文档.我知道我必须创建一个视图来做同样的事情.
  • CouchDB数据库位于应用程序所在的本地计算机中.

问题:查询数据库是否需要超过2 - 3秒才能找到匹配的客户名称?如果CouchDB中有很多文档(例如大约100000个文档),查询是否会为每个查询花费更多时间?

有关如何创建视图/索引的任何指针都会有所帮助.

提前致谢.

performance couchdb

8
推荐指数
1
解决办法
1944
查看次数

0
推荐指数
1
解决办法
444
查看次数