我想在 Serverless Dataproc 上安装一些 python 包(例如:python-json-logger)。有没有办法执行初始化操作来在无服务器 dataproc 中安装 python 包?请告诉我。
python google-cloud-platform dataproc google-cloud-dataproc-serverless
我创建了一个 dataproc 集群,并尝试提交我的本地作业进行测试。
gcloud beta dataproc clusters create test-cluster \
--region us-central1 \
--zone us-central1-c \
--master-machine-type n1-standard-4 \
--master-boot-disk-size 500 \
--num-workers 2 \
--worker-machine-type n1-standard-4 \
--worker-boot-disk-size 500 \
--image-version preview-ubuntu18 \
--project my-project-id \
--service-account my-service-account@project-id.iam.gserviceaccount.com \
--scopes https://www.googleapis.com/auth/cloud-platform \
--tags dataproc,iap-remote-admin \
--subnet my-vpc \
--properties spark:spark.jars=gs://spark-lib/bigquery/spark-bigquery-latest.jar
Run Code Online (Sandbox Code Playgroud)
尝试提交一个非常简单的脚本
import argparse
from datetime import datetime, timedelta
from pyspark.sql import SparkSession, DataFrame
def load_data(spark: SparkSession):
customers = spark.read.format('bigquery')\
.option('table', 'MY_DATASET.MY_TABLE')\
.load()
customers.printSchema()
customers.show()
if __name__ == '__main__':
spark …Run Code Online (Sandbox Code Playgroud) google-bigquery apache-spark google-cloud-platform pyspark dataproc