标签: dataproc

在无服务器 Dataproc GCP 中安装 python 软件包

我想在 Serverless Dataproc 上安装一些 python 包(例如:python-json-logger)。有没有办法执行初始化操作来在无服务器 dataproc 中安装 python 包?请告诉我。

python google-cloud-platform dataproc google-cloud-dataproc-serverless

6
推荐指数
1
解决办法
2746
查看次数

pyspark读取bigquery时出错:java.lang.ClassNotFoundException:org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群,并尝试提交我的本地作业进行测试。

gcloud beta dataproc clusters create test-cluster \
--region us-central1 \
--zone us-central1-c \
--master-machine-type n1-standard-4 \
--master-boot-disk-size 500 \
--num-workers 2 \
--worker-machine-type n1-standard-4 \
--worker-boot-disk-size 500 \
--image-version preview-ubuntu18 \
--project my-project-id \
--service-account my-service-account@project-id.iam.gserviceaccount.com \
--scopes https://www.googleapis.com/auth/cloud-platform \
--tags dataproc,iap-remote-admin \
--subnet my-vpc \
--properties spark:spark.jars=gs://spark-lib/bigquery/spark-bigquery-latest.jar
Run Code Online (Sandbox Code Playgroud)

尝试提交一个非常简单的脚本

import argparse
from datetime import datetime, timedelta
from pyspark.sql import SparkSession, DataFrame


def load_data(spark: SparkSession):
    customers = spark.read.format('bigquery')\
        .option('table', 'MY_DATASET.MY_TABLE')\
        .load()
    customers.printSchema()
    customers.show()


if __name__ == '__main__':
    spark …
Run Code Online (Sandbox Code Playgroud)

google-bigquery apache-spark google-cloud-platform pyspark dataproc

3
推荐指数
1
解决办法
3186
查看次数