小编ElB*_*cas的帖子

如何将函数按列应用于 julia 数据框

您将如何按列将函数应用于 julia 数据框中的某些/所有列?我试图解决的用例是简单的类型解析和处理。例如,我想将此示例数据帧的列从字符串解析为整数

df = DataFrame(a = ["1","2", "3"], b = ["4","5","6"])

# something like this works but destroys the structure of the dataframe
[parse.(Int64, col) for col in eachcol(df)]
Run Code Online (Sandbox Code Playgroud)

将来,我希望能够拥有一个包含许多不同类型列的数据框,并且只修改此数据框的选择。但是,我仍然坚持将函数应用于所有列的简单情况。

dataframe julia

4
推荐指数
1
解决办法
1788
查看次数

如何避免在某些条件下运行 dagster 管道的其余部分

假设我在 Dagster 中有两个实体连接在管道上。第一个实体可以执行某些处理并生成有效输入,以便管道的其余部分执行,或者生成不应进一步处理的无效输入。为了实现此结果,当数据满足无效条件时,我会引发错误,以便管道停止并跳过其余的实体。

提出错误来解决我的用例似乎很棘手,有没有一种方法可以让我跳过管道其余部分的执行而不诉诸异常?

from dagster import solid, pipeline

@solid
def solid_1(context, x: int):
    y = x + 1

    if y%2 == 0:
        raise "No even number is further processed"

    return y

@solid
def solid_2(context, y:int):
    return y**2

@pipeline
def toy_pipeline():
    solid_2(solid_1())
Run Code Online (Sandbox Code Playgroud)

在这个非常人为的示例中,只有当第一个实体的输出为奇数时才应执行实体 2。

在我的实际用例中,第一个实体轮询数据库,有时找不到要处理的数据。在这种情况下,不将执行标记为失败而是标记为成功是有意义的。可以检查每个下游实体中的数据是否满足条件,但这很快就会增加样板文件。当接收数据的实体找不到要处理的数据时,最好有一种方法可以跳过所有下游实体的执行。

dagster

4
推荐指数
1
解决办法
4118
查看次数

如何设置 checkpiont dir PySpark Data Science Experience

你能帮我说明如何为 IBM 的数据科学体验中的 PySpark 会话设置检查点目录吗?。

需要是因为我必须connectedComponents()从 GraphFrames运行它会引发以下错误

Py4JJavaError: An error occurred while calling o221.run.
: java.io.IOException: Checkpoint directory is not set. Please set it first using sc.setCheckpointDir(). 
Run Code Online (Sandbox Code Playgroud)

pyspark data-science-experience

1
推荐指数
1
解决办法
3365
查看次数