如何批量上传数据到appengine数据存储区？较旧的方法不起作用

import cgi
import webapp2
import logging
import os, csv
from models import DataStoreModel
import StringIO
from google.appengine.api import app_identity
from mapreduce import base_handler
from mapreduce import mapreduce_pipeline
from mapreduce import operation as op
from mapreduce.input_readers import InputReader

def testmapperFunc(newRequest):
    f = StringIO.StringIO(newRequest)
    reader = csv.reader(f, delimiter=',')
    for row in reader:
        newEntry = DataStoreModel(attr1=row[0], link=row[1])
        yield op.db.Put(newEntry)

class TestGCSReaderPipeline(base_handler.PipelineBase):
    def run(self, filename):
        yield mapreduce_pipeline.MapreducePipeline(
                "test_gcs",
                "testgcs.testmapperFunc",
                "mapreduce.input_readers.FileInputReader",
                mapper_params={
                    "files": [filename],
                    "format": 'lines'
                },
                shards=1)

class tempTestRequestGCSUpload(webapp2.RequestHandler):
    def get(self):
        bucket_name = os.environ.get('BUCKET_NAME',
                                     app_identity.get_default_gcs_bucket_name())

        bucket = '/gs/' + bucket_name
        filename = bucket + '/' + 'tempfile.csv'

        pipeline = TestGCSReaderPipeline(filename)
        pipeline.with_params(target="mapreducetestmodtest")
        pipeline.start()
        self.response.out.write('done')

application = webapp2.WSGIApplication([
    ('/gcsupload', tempTestRequestGCSUpload),
], debug=True)

Run Code Online (Sandbox Code Playgroud)

要记住:

Mapreduce项目使用现已弃用的"Google Cloud Storage Files API".所以未来的支持不能保证.
Map reduce为数据存储读取和写入增加了一点开销.

方法3:GCS和GCS客户端库

使用上述文件传输方法将csv/text文件上载到gcs.
使用gcs客户端库(将"cloudstorage"文件夹复制到应用程序顶级文件夹).

将以下代码添加到应用程序main.py文件中.

import cgi
import webapp2
import logging
import jinja2
import os, csv
import cloudstorage as gcs
from google.appengine.ext import ndb
from google.appengine.api import app_identity
from models import DataStoreModel

class UploadGCSData(webapp2.RequestHandler):
    def get(self):
        bucket_name = os.environ.get('BUCKET_NAME',
                                     app_identity.get_default_gcs_bucket_name())
        bucket = '/' + bucket_name
        filename = bucket + '/tempfile.csv'
        self.upload_file(filename)

    def upload_file(self, filename):
        gcs_file = gcs.open(filename)
        datareader = csv.reader(gcs_file)
        count = 0
        entities = []
        for row in datareader:
            count += 1
                newProd = DataStoreModel(attr1=row[0], link=row[1])
                entities.append(newProd)

            if count%50==0 and entities:
                ndb.put_multi(entities)
                entities=[]

        if entities:
            ndb.put_multi(entities)

application = webapp2.WSGIApplication([
    ('/gcsupload', UploadGCSData),
], debug=True)

Run Code Online (Sandbox Code Playgroud)

Answer 2

gre*_*ess 1

你们中的一些人可能会遇到我的情况：我无法使用数据存储区的导入/导出实用程序，因为我的数据在进入数据存储区之前需要进行转换。

我最终使用了apache-beam（谷歌云数据流）。

只需要写几行“beam”代码即可

读取您的数据（例如，托管在云存储上） - 您会得到一个PCollection字符串，
做任何你想要的转换（这样你就得到了一个PCollection数据存储实体），
将它们转储到数据存储接收器。

请参阅如何使用多个工作人员加速批量导入到谷歌云数据存储？对于具体的用例。

我能够以每秒 800 个实体的速度向我的数据存储区写入 5 个工作人员。这使我能够在大约 5 小时内完成导入任务（1600 万行）。如果你想让它更快，请使用更多的工人：D

归档时间：	11 年，2 月前
查看次数：	7433 次
最近记录：	7 年，1 月前