AWS Glue - 在插入之前截断目标postgres表

Jos*_*ann 7 python postgresql pyspark aws-glue

我试图在插入之前截断postgres目标表,并且通常尝试使用已在GLUE中创建的连接来触发外部函数.

有没有人能够这样做?

the*_*ist 13

我已经尝试了这个DROP/ TRUNCATE场景,但是还没有能够用已经在Glue中创建的连接来实现它,而是使用纯Python PostgreSQL驱动程序pg8000.

  1. 从pypi下载pg8000的焦油
  2. __init__.py在根文件夹中创建一个空
  3. 压缩内容并上传到S3
  4. 参考zip文件中Python lib path的作业
  5. 将数据库连接详细信息设置为作业参数(确保使用前缀所有键名称--).勾选"服务器端加密"框.

然后,您只需创建一个连接并执行SQL.

import sys
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.dynamicframe import DynamicFrame
from awsglue.job import Job

import pg8000

args = getResolvedOptions(sys.argv, [
    'JOB_NAME',
    'PW',
    'HOST',
    'USER',
    'DB'
])
# ...
# Create Spark & Glue context

job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# ...
config_port = 5432
conn = pg8000.connect(
    database=args['DB'], 
    user=args['USER'], 
    password=args['PW'],
    host=args['HOST'],
    port=config_port
)
query = "TRUNCATE TABLE {0};".format(".".join([schema, table]))
cur = conn.cursor()
cur.execute(query)
conn.commit()
cur.close()
conn.close()
Run Code Online (Sandbox Code Playgroud)

  • 现在,将“pg8000”模块与 Glue 作业结合使用更加简单。转到“安全配置、脚本库和作业参数(可选)”,向下滚动到“作业参数”,然后输入“--additional-python-modules”作为键,“pg8000”作为值......然后您”重做 :) (2认同)