小编cha*_*g30的帖子

我有大约200万条记录,每条记录有大约4个字符串字段,每个字段都需要检查重复项.更具体地说,我将名称,电话,地址和父名称作为字段,我必须使用所有这些字段检查重复数据删除与其余数据.产生的唯一记录需要记录到db中.

我已经能够实现mapreduce,迭代所有记录.任务率设置为100/s,桶大小设置为100.启用计费.

目前,一切正常,但性能非常缓慢.我已经能够在6小时内完成10,000个记录的测试数据集中的1000个记录重复数据删除处理.

java中的当前设计是:

我准备增加任何数量的GAE资源,以便在最短的时间内实现这一目标.

我的问题是:

欢迎自由职业者为此提供帮助.

谢谢你的帮助.

5
推荐指数

1
解决办法

1967
查看次数

我正在制作P2P媒体共享功能,用户可以与他人共享文件(图像,mp3等).当用户与另一个共享文件时,我只需向他们发送该文件的链接即可.链接看起来像:

现在,unique_key必须是字母数字且不易猜测,所以我打算使用文件记录的编码密钥.

这在我早期的Python GAE应用程序中很简单,但在我的新Java应用程序中,我无法获得此Key值,我得到的是一个Long(数字)ID.

我的实体有一个名为ID的字段,它是Long,但在我的GAE管理控制台中有一个实体编码的密钥,它是字母数字,我希望这对我数据库中的每条记录都是唯一的.那么如何访问呢？

我正在使用Objectify,当我创建这样的新密钥时

Key myKey = new Key(FileEntity.class,entityID);

myKey是一个包含一些文本的字符串,但它是我正在寻找的uniqye alpha数字id.

对不起我的模糊问题,请帮忙.

0
推荐指数

1
解决办法

180
查看次数

小编cha_g30的帖子