您将如何按列将函数应用于 julia 数据框中的某些/所有列?我试图解决的用例是简单的类型解析和处理。例如,我想将此示例数据帧的列从字符串解析为整数
df = DataFrame(a = ["1","2", "3"], b = ["4","5","6"])
# something like this works but destroys the structure of the dataframe
[parse.(Int64, col) for col in eachcol(df)]
Run Code Online (Sandbox Code Playgroud)
将来,我希望能够拥有一个包含许多不同类型列的数据框,并且只修改此数据框的选择。但是,我仍然坚持将函数应用于所有列的简单情况。
假设我在 Dagster 中有两个实体连接在管道上。第一个实体可以执行某些处理并生成有效输入,以便管道的其余部分执行,或者生成不应进一步处理的无效输入。为了实现此结果,当数据满足无效条件时,我会引发错误,以便管道停止并跳过其余的实体。
提出错误来解决我的用例似乎很棘手,有没有一种方法可以让我跳过管道其余部分的执行而不诉诸异常?
from dagster import solid, pipeline
@solid
def solid_1(context, x: int):
y = x + 1
if y%2 == 0:
raise "No even number is further processed"
return y
@solid
def solid_2(context, y:int):
return y**2
@pipeline
def toy_pipeline():
solid_2(solid_1())
Run Code Online (Sandbox Code Playgroud)
在这个非常人为的示例中,只有当第一个实体的输出为奇数时才应执行实体 2。
在我的实际用例中,第一个实体轮询数据库,有时找不到要处理的数据。在这种情况下,不将执行标记为失败而是标记为成功是有意义的。可以检查每个下游实体中的数据是否满足条件,但这很快就会增加样板文件。当接收数据的实体找不到要处理的数据时,最好有一种方法可以跳过所有下游实体的执行。
你能帮我说明如何为 IBM 的数据科学体验中的 PySpark 会话设置检查点目录吗?。
需要是因为我必须connectedComponents()从 GraphFrames运行它会引发以下错误
Py4JJavaError: An error occurred while calling o221.run.
: java.io.IOException: Checkpoint directory is not set. Please set it first using sc.setCheckpointDir().
Run Code Online (Sandbox Code Playgroud)