从Mysql切换到MongoDB 200百万行

ben*_*aix 1 mysql bigdata mongodb

我们正试图从mysql迁移到mongodb.mysql结构是id_src int id_dest int unique key:id_src,id_dest

它们在mysql中大约有2亿行

数据示例:{id_src,id_dest} {1,2} {1,3} {1,10} {2,3} {2,10} {4,3}

我们需要检索数据:{id_dest,count} {3,3} {10,2} {2,1}

我开始在mongodb中重新生成mysql的结构.插入性能很大(非常好):大约1小时插入200万行.

但我需要使用map reduce来获取组.地图缩减大约需要1个小时.

所以我尝试创建另一个mongodb结构:{id_dest,{id_src1,id_src2}}

每个文档可以有十万个id_src.

这是我的insert.php代码

$res=mysql_unbuffered_query("select * from ids limit 10000100");  
while ($tab=mysql_fetch_array($res)) {  
$collection->update(array('_id'=>(int)$tab['id_dest']),array('$push' => array('src'=>(int)$tab['id_src'])),array("upsert" => true));  
}  
Run Code Online (Sandbox Code Playgroud)

但在这种情况下,性能非常糟糕,每秒只有少量更新.

难道我做错了什么 ?

Gat*_* VP 6

首先,Map/Reduce不是为实时分析而设计的.此外,MongoDB目前仅限于M/R的一个核心,这将进一步降低速度.

因此,如果您要使用M/R来获取数据,那么它将不是"实时",它将每X分钟(或几小时)更新一次.

这里有两种有效的方法:

  1. 增量M/R.
  2. 实时计数器

选项#1:增量M/R.

对于此选项,您可以为所有数据运行M/R一次.然后,继续,您只对修改后的数据运行M/R. 如果您现在有200M文档,则接下来可能有210M文档(这意味着M/R变得更慢).但是,如果您只需要运行新的/更改的文档,那么它应该花费不到1小时.

reduce这里查看文档中的输出选项.

同样,前提是您只需M/R相关数据,系统就可以"重新减少"现有数据.通过这种方式,您可以获得"增量"M/R.

选项#2:实时计数器

在此方法中,您有两个集合:一个用于数据,另一个用于"摘要"的结果.插入数据时,还会对摘要执行增量操作.

假设您有这些数据:

Main Collection
{src: 1, dest: 2}
{src: 1, dest: 3}
{src: 1, dest: 10}
{src: 2, dest: 3}
{src: 2, dest: 10}
{src: 4, dest: 3}

Summary Collection
{dest: 3, count: 3}
{dest: 10, count: 2}
{dest: 2, count: 1}
Run Code Online (Sandbox Code Playgroud)

您收到一条新数据{src: 5, dest: 2}.你会做两个更新:

db.main.insert({src: 5, dest: 2});
db.summary.update({dest: 2}, { $inc : { count: 1 } }, true); // upsert true
Run Code Online (Sandbox Code Playgroud)

这是您的新数据:

Main Collection
{src: 1, dest: 2}
...
{src: 4, dest: 3}
{src: 5, dest: 2}

Summary Collection
{dest: 3, count: 3}
{dest: 10, count: 2}
{dest: 2, count: 2}
Run Code Online (Sandbox Code Playgroud)

你会注意到我们已经更新了我们的摘要:{dest: 2, count: 2}.

显然,这里存在权衡取舍.您需要更多更新/插入(2x),但您可以获得实时计数器.现在,MongoDB中没有任何事务,因此您必须决定确保两个更新都发生的策略.有很多方法可以做到这一点,我不能进入这里(请参阅一个方法的消息队列).