我从我自己的工作站上的pycharm启动pyspark应用程序到8节点集群.此群集还具有以spark-defaults.conf和spark-env.sh编码的设置
这就是我获取spark上下文变量的方法.
spark = SparkSession \
.builder \
.master("spark://stcpgrnlp06p.options-it.com:7087") \
.appName(__SPARK_APP_NAME__) \
.config("spark.executor.memory", "50g") \
.config("spark.eventlog.enabled", "true") \
.config("spark.eventlog.dir", r"/net/share/grid/bin/spark/UAT/SparkLogs/") \
.config("spark.cores.max", 128) \
.config("spark.sql.crossJoin.enabled", "True") \
.config("spark.executor.extraLibraryPath","/net/share/grid/bin/spark/UAT/bin/vertica-jdbc-8.0.0-0.jar") \
.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
.config("spark.logConf", "true") \
.getOrCreate()
sc = spark.sparkContext
sc.setLogLevel("INFO")
Run Code Online (Sandbox Code Playgroud)
我想看看我的日志中使用的有效配置.这条线
.config("spark.logConf", "true") \
Run Code Online (Sandbox Code Playgroud)
应该使spark api将其有效配置作为INFO记录到日志中,但是默认日志级别设置为WARN,因此我看不到任何消息.
设置这一行
sc.setLogLevel("INFO")
Run Code Online (Sandbox Code Playgroud)
显示INFO消息向前发展,但到那时为时已晚.
如何设置spark开始的默认日志记录级别?