有没有办法使用logging模块自动将事物输出到stdout 以及它们应该去的日志文件?例如,我想所有呼叫logger.warning,logger.critical,logger.error去他们预期的地方,但除了总是被复制到stdout.这是为了避免重复消息,如:
mylogger.critical("something failed")
print "something failed"
Run Code Online (Sandbox Code Playgroud) 我想用Python编写的Spark驱动程序来输出一些基本的日志信息.我可以通过三种方式来做到这一点:
log4jLogger = sc._jvm.org.apache.log4j
LOGGER = log4jLogger.LogManager.getLogger(__name__)
LOGGER.info("pyspark script logger initialized")
只需使用标准控制台打印.
loggingPython标准库模块.这似乎是理想的和最Pythonic方法,但是,至少开箱即用,它不起作用,并且记录的消息似乎不可恢复.当然,这可以配置为记录到py4j-> log4j和/或控制台.
因此,官方编程指南(https://spark.apache.org/docs/1.6.1/programming-guide.html)根本没有提到日志记录.这令人失望.应该有标准的文档建议方法来记录Spark驱动程序.
搜索了这个问题,发现了这个问题:如何从我的Python Spark脚本中进行登录
但该线程的内容并不令人满意.
具体来说,我有以下问题:
我在AWS EMR上运行一个非常简单的Spark作业,似乎无法从我的脚本中获取任何日志输出.
我试过打印到stderr:
from pyspark import SparkContext
import sys
if __name__ == '__main__':
sc = SparkContext(appName="HelloWorld")
print('Hello, world!', file=sys.stderr)
sc.stop()
Run Code Online (Sandbox Code Playgroud)
并采用火花记录器如图所示在这里:
from pyspark import SparkContext
if __name__ == '__main__':
sc = SparkContext(appName="HelloWorld")
log4jLogger = sc._jvm.org.apache.log4j
logger = log4jLogger.LogManager.getLogger(__name__)
logger.error('Hello, world!')
sc.stop()
Run Code Online (Sandbox Code Playgroud)
作业运行后EMR给我两个日志文件:controller和stderr.两个日志都不包含"Hello, world!"字符串.这是我的理解,stdout重定向到stderr火花.该stderr日志显示作业被接受,运行和顺利完成.
所以我的问题是,我在哪里可以查看我的脚本的日志输出?或者我应该在脚本中更改什么才能正确记录?
编辑:我使用此命令提交步骤:
aws emr add-steps --region us-west-2 --cluster-id x-XXXXXXXXXXXXX --steps Type=spark,Name=HelloWorld,Args=[--deploy-mode,cluster,--master,yarn,--conf,spark.yarn.submit.waitAppCompletion=true,s3a://path/to/simplejob.py],ActionOnFailure=CONTINUE
Run Code Online (Sandbox Code Playgroud) 我正在尝试在 Databricks 中的 Python 笔记本中将自己的日志文件写入 Azure Datalake Gen 2。我试图通过使用 Python 日志记录模块来实现这一点。
不幸的是我不能让它工作。不会引发错误,会创建文件夹,但不会创建包含日志内容的文件。即使文件存在,也不会写入任何内容。
本地 python 脚本工作正常,但我无法在 Databricks 中使用它。
这是我的代码:
# mount
if not any(mount.mountPoint == '/mnt/log' for mount in dbutils.fs.mounts()):
dbutils.fs.mount(
source = "abfss://log@datalake.dfs.core.windows.net/",
mount_point = "/mnt/log",
extra_configs = configs)
# vars
folder_log = '/mnt/log/test/2019'
file_log = '201904.log'
# add folder if not existent
dbutils.fs.mkdirs(folder_log)
# setup logging
import logging
logging.basicConfig(
filename=folder_log+'/'+file_log,
format='%(asctime)s | %(name)s | %(levelname)s | %(message)s',
datefmt='%Y-%m-%d %H:%M:%S UTC (%z)',
level=logging.NOTSET
)
# test
logging.info('Hello World.')
Run Code Online (Sandbox Code Playgroud)
安装似乎没问题。
使用 …
如果您在 PySpark 的 UDF 函数中添加任何类型的登录,它就不会出现在任何地方。是否有某种方法可以实现这一目标?
到目前为止,我尝试了标准的 python 日志记录、py4j 和打印。
我们在 AWS EMR 集群上运行带有 YARN 集群管理器的 PySpark 2.3.2。
例如。这是我想使用的一个函数:
def parse_data(attr):
try:
# execute something
except Exception as e:
logger.error(e)
return None
Run Code Online (Sandbox Code Playgroud)
我将其转换为 UDF:
import pyspark.sql.functions as F
parse_data_udf = F.udf(parse_data, StringType())
Run Code Online (Sandbox Code Playgroud)
我将在数据帧上使用它:
from pyspark.sql import types as pst
dataframe = dataframe.withColumn("new_column", parse_data_udf("column").cast(pst.StringType())
Run Code Online (Sandbox Code Playgroud)
该函数的日志不会出现在任何地方。
从这个StackOverflow 线程中,我知道如何在 pyspark 中获取和使用 log4j 记录器,如下所示:
from pyspark import SparkContext
sc = SparkContext()
log4jLogger = sc._jvm.org.apache.log4j
LOGGER = log4jLogger.LogManager.getLogger('MYLOGGER')
LOGGER.info("pyspark script logger initialized")
Run Code Online (Sandbox Code Playgroud)
这适用于spark-submit脚本。
我的问题是如何修改log4j.properties文件以配置此特定记录器的日志级别或如何动态配置它?
在数据采集服务器上运行PySpark作业时
gcloud --project <project_name> dataproc jobs submit pyspark --cluster <cluster_name> <python_script>
Run Code Online (Sandbox Code Playgroud)
我的打印报表没有显示在我的终端中.
在云上运行作业时,有没有办法在PySpark中将数据输出到终端?
编辑:我想在转换中打印/记录信息.例如:
def print_funct(l):
print(l)
return l
rddData.map(lambda l: print_funct(l)).collect()
Run Code Online (Sandbox Code Playgroud)
应该打印RDD中的每一行数据rddData.