我有大约200万条记录,每条记录有大约4个字符串字段,每个字段都需要检查重复项.更具体地说,我将名称,电话,地址和父名称作为字段,我必须使用所有这些字段检查重复数据删除与其余数据.产生的唯一记录需要记录到db中.
我已经能够实现mapreduce,迭代所有记录.任务率设置为100/s,桶大小设置为100.启用计费.
目前,一切正常,但性能非常缓慢.我已经能够在6小时内完成10,000个记录的测试数据集中的1000个记录重复数据删除处理.
java中的当前设计是:
我准备增加任何数量的GAE资源,以便在最短的时间内实现这一目标.
我的问题是:
欢迎自由职业者为此提供帮助.
谢谢你的帮助.
我正在制作P2P媒体共享功能,用户可以与他人共享文件(图像,mp3等).当用户与另一个共享文件时,我只需向他们发送该文件的链接即可.链接看起来像:
http://www.domain.com/file?q=unique_key
现在,unique_key必须是字母数字且不易猜测,所以我打算使用文件记录的编码密钥.
这在我早期的Python GAE应用程序中很简单,但在我的新Java应用程序中,我无法获得此Key值,我得到的是一个Long(数字)ID.
我的实体有一个名为ID的字段,它是Long,但在我的GAE管理控制台中有一个实体编码的密钥,它是字母数字,我希望这对我数据库中的每条记录都是唯一的.那么如何访问呢?
我正在使用Objectify,当我创建这样的新密钥时
Key myKey = new Key(FileEntity.class,entityID);
myKey是一个包含一些文本的字符串,但它是我正在寻找的uniqye alpha数字id.
对不起我的模糊问题,请帮忙.