Ale*_*lex 5 python logging pyspark jupyter-notebook
我正在尝试将日志记录添加到一些 Jupyter Notebook 代码(运行 Pyspark3)。
仔细研究,我发现了一些答案,说使用basicConfig()
不起作用,因为笔记本启动了自己的日志记录会话。一些解决方法的答案指向运行reload(logging)
来解决这个问题。考虑到这一点,我正在像这样设置我的日志记录:
from importlib import reload # Not needed in Python 2
import logging
reload(logging)
logging.basicConfig(
format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
level=logging.INFO,
datefmt="%y/%m/%d %H:%M:%S",
)
logger = logging.getLogger(__name__)
Run Code Online (Sandbox Code Playgroud)
然后我运行一个 info 语句:logger.info("this is a test")
我收到一个 I/O 值错误?我不确定这意味着什么。
--- Logging error ---
Traceback (most recent call last):
File "/usr/lib64/python3.6/logging/__init__.py", line 994, in emit
stream.write(msg)
File "/tmp/2950371398694308674", line 534, in write
super(UnicodeDecodingStringIO, self).write(s)
ValueError: I/O operation on closed file
Call stack:
File "/tmp/2950371398694308674", line 700, in <module>
sys.exit(main())
File "/tmp/2950371398694308674", line 672, in main
response = handler(content)
File "/tmp/2950371398694308674", line 318, in execute_request
result = node.execute()
File "/tmp/2950371398694308674", line 229, in execute
exec(code, global_dict)
File "<stdin>", line 1, in <module>
Message: 'this is a test'
Arguments: ()
Run Code Online (Sandbox Code Playgroud)
这与日志记录与 stdout/stderr 交互有关,但我不确定如何解决它。
在我发表上述评论之后,我开始提出这个解决方法。
问题似乎是sys.stdout
与 Spark 配合不好,或者至少在 Jupyter 使用时是这样;您可以通过创建一个新的(Pyspark3)笔记本,导入sys
,然后sys.stdout
在不同的单元格中打印来轻松验证这一点:它们将打印不同的对象(在我的例子中,有 4 个对象,并且在它们之间循环,但我不能确定为什么是 4;也许它是我的集群配置所特有的,但它并没有随着我更改执行数量或每个执行的核心数而改变)。
我的解决方法是:
logger = logging.getLogger(__name__)
logger.handlers[0].stream.write = print
Run Code Online (Sandbox Code Playgroud)
这是可行的,因为我知道我的记录器只有一个处理程序,它是sys.stdout
. 如果您的记录器中有更多处理程序(例如,一个标准输出和一个文件),我还没有弄清楚如何仅更改一个stdout
(我无法比较if stream == sys.stdout
,因为问题的整个根源意味着对象将发生变化,除非您在创建记录器的同一单元格中执行此操作),所以此解决方法可能并不适合所有人。
如果我进一步发展,我会用更好的解决方案编辑答案,但我现在正在使用它,它的工作就像一个魅力。
编辑:一年后,我仍然以同样的方式这样做