在Laravel中播种大数据的最佳案例

ral*_*ino 1 laravel laravel-4

我有一个包含超过30,000条记录的文件,另一条有41,000条记录.有没有最好的案例研究使用laravel 4的db:seed命令播种?一种使插入更快速的方法.

谢谢您的帮助.

Lea*_*ner 9

2018年更新

我遇到了同样的问题,经过 2 天的头痛,我终于可以编写脚本在不到 30 秒的时间内播种 42K 条目!

你问如何?

第一种方法

此方法假设您有一个数据库,其中包含一些条目(在我的例子中为 42k 条目),并且您希望将其导入到其他数据库中。将数据库导出为带有标题名称的 CSV 文件,并将该文件放入项目的公共文件夹中,然后您可以解析该文件并通过 seeder 将所有条目一一插入到新数据库中。

所以你的播种机看起来像这样:

<?php

use Illuminate\Database\Seeder;

class {TableName}TableSeeder extends Seeder
{
    /**
     * Run the database seeds.
     *
     * @return void
     */
    public function run()
    {
        $row = 1;
        if (($handle = fopen(base_path("public/name_of_your_csv_import.csv"), "r")) !== false) {
            while (($data = fgetcsv($handle, 0, ",")) !== false) {
                if ($row === 1) {
                    $row++;
                    continue;
                }
                $row++;

                $dbData = [
                    'col1' => '"'.$data[0].'"',
                    'col2' => '"'.$data[1].'"',
                    'col3' => '"'.$data[2].'"',
                    so on...how many columns you have
                ];

                $colNames = array_keys($dbData);

                $createQuery = 'INSERT INTO locations ('.implode(',', $colNames).') VALUES ('.implode(',', $dbData).')';

                DB::statement($createQuery, $data);
                $this->command->info($row);
            }
            fclose($handle);
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

简单又容易:)


第二种方法

如果您可以修改 PHP 的设置并为特定脚本分配较大的大小,那么此方法也将起作用。

基本上,您需要关注三个主要步骤:

  • 为脚本分配更多内存
  • 关闭查询记录器
  • 将您的数据分成 1000 块
  • 迭代数据并用于insert()一次创建 1K 的块。

因此,如果我将上述所有步骤结合到播种器中,您的播种器将如下所示:

<?php

use Illuminate\Database\Seeder;

class {TableName}TableSeeder extends Seeder
{
    /**
     * Run the database seeds.
     *
     * @return void
     */
    public function run()
    {
        ini_set('memory_limit', '512M');//allocate memory
        DB::disableQueryLog();//disable log
        //create chunks
        $data = [
           [
              [
                 'col1'=>1,
                 'col2'=>1,
                 'col3'=>1,
                 'col4'=>1,
                 'col5'=>1
              ],
              [             
                 'col1'=>1,
                 'col2'=>1,
                 'col3'=>1,
                 'col4'=>1,
                 'col5'=>1
              ],
              so on..until 1000 entries 
           ],
           [
              [
                 'col1'=>1,
                 'col2'=>1,
                 'col3'=>1,
                 'col4'=>1,
                 'col5'=>1
              ],
              [             
                 'col1'=>1,
                 'col2'=>1,
                 'col3'=>1,
                 'col4'=>1,
                 'col5'=>1
              ],
              so on..until 1000 entries 
           ],
           so on...until how many entries you have, i had 42000
      ]
      //iterate and insert
      foreach ($data as $key => $d) {
          DB::table('locations')->insert($d);
          $this->command->info($key);//gives you an idea where your iterator is in command line, best feeling in the world to see it rising if you ask me :D
      }
  }
}
Run Code Online (Sandbox Code Playgroud)

瞧,你可以走了:)

我希望它有帮助


Ant*_*iro 6

不要害怕,40K行表是一种小型的.我有一个1百万行的表,种子顺利完成,我只需要在做之前添加它:

DB::disableQueryLog();
Run Code Online (Sandbox Code Playgroud)

在禁用它之前,Laravel浪费了我所有的PHP内存限制,无论我给它多少.

我使用.txt文件读取数据fgets(),以编程方式构建数组并执行:

DB::table($table)->insert($row);
Run Code Online (Sandbox Code Playgroud)

一个接一个,可能特别慢.

我的数据库服务器是PostgreSQL,插入大约需要1.5小时才能完成,可能是因为我使用的是内存不足的虚拟机.我会在一台更好的机器上做一个基准测试.