从外部 FTP 服务器读取 > 1GB GZipped CSV 文件

Tom*_*sch 5 php csv fgetcsv laravel

在我的 Laravel 应用程序的计划任务中,我在外部 FTP 服务器上读取了几个大的 gzipped CSV 文件,范围从 80mb 到 4gb,其中包含我根据产品属性存储在我的数据库中的产品。

我遍历要导入的产品提要列表,但每次都返回一个致命错误:“已用尽 536870912 字节的允许内存大小”。我可以增加极的长度参数fgetcsv从函数1000100000其解决的较小的文件(<500MB)的问题,但对于较大的文件,将返回致命错误。

有没有一种解决方案可以让我下载或解压缩 .csv.gz 文件、读取行(按批次或逐行)并将产品插入到我的数据库中而不会耗尽内存?

$feeds = [
    "feed_baby-mother-child.csv.gz",
    "feed_computer-games.csv.gz",
    "feed_general-books.csv.gz",
    "feed_toys.csv.gz",
];

foreach ($feeds as $feed) {
    $importedProducts = array();
    $importedFeedProducts = 0;

    $csvfile = 'compress.zlib://ftp://' . config('app.ftp_username') . ':' . config('app.ftp_password') . '@' . config('app.ftp_host') . '/' . $feed;

    if (($handle = fopen($csvfile, "r")) !== FALSE) {
        $row = 1;
        $header = fgetcsv($handle, 1, "|");
                
        while (($data = fgetcsv($handle, 1000, "|")) !== FALSE) {
            if($row == 1 || array(null) !== $data){ $row++; continue; }
                    
            $product = array_combine($header, $data);
            $importedProducts[] = $product;
        }

        fclose($handle);
    } else {
        echo 'Failed to open: ' . $feed . PHP_EOL;
        continue;
    }
    
    // start inserting products into the database below here
}
Run Code Online (Sandbox Code Playgroud)

Dan*_*ers 3

问题可能不是gzip文件本身,当然你可以下载它,然后处理它,这会保留同样的问题。

因为您正在将所有产品加载到单个数组(内存)中

$importedProducts[] = $product;
Run Code Online (Sandbox Code Playgroud)

您可以注释掉这一行,并查看它是否达到了您的内存限制。

通常我会创建一个像 addProduct($product) 这样的方法来处理内存安全。

然后,您可以在进行批量插入之前从那里决定最大产品数量。为了达到最佳速度..我通常使用 1000 到 5000 行之间的东西。

例如

$importedProducts[] = $product;
Run Code Online (Sandbox Code Playgroud)

然而,我通常不会将其实现为单个类,但在我的项目中,我曾经将它们集成为可用于任何雄辩模型的 BulkInsertable 特征。

但这应该给你一个方向,告诉你如何避免内存限制。

或者,更简单,但速度明显慢,只需插入现在将其分配给数组的行。但这会给你的数据库带来巨大的负载,而且速度会非常慢。

如果 GZIP 流是瓶颈

正如我所期望的,这不是问题,但如果是的话,那么你可以使用 gzopen()

https://www.php.net/manual/en/function.gzopen.php

并将 gzopen 句柄嵌套为 fgetcsv 的句柄。

但我希望您正在使用的流处理程序已经以相同的方式为您执行此操作。

如果不是,我的意思是这样的:

class ProductBatchInserter
{
    private $maxRecords = 1000;
    private $records = [];
    
    function addProduct($record) {
        $this->records[] = $record;
        if (count($this->records) >= $this->maxRecords) {
           EloquentModel::insert($this->records);
           $this->records = [];
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

如果您无论如何都需要下载它,有很多方法可以做到这一点,但请确保您使用内存安全的东西,例如 fopen / fgets 或 guzzle 流,并且不要尝试使用像 file_get_contents() 这样的东西将其加载到内存中