我可以从Jupyter笔记本中使用Dataflow for Python SDK吗?

Sil*_*viu 3 python google-cloud-dataflow

我想从Jupyter笔记本中使用Dataflow for Python SDK.我不确定所需的依赖项是什么,以及我是否可以将代码分布在多个笔记本单元格上.涉及的步骤是什么?

Sil*_*viu 5

是! 没有涉及特殊步骤.例如,使用Conda环境(推荐使用IPython/Jupyter笔记本)启动Jupyter笔记本的命令是:

  1. conda create -n TESTENV jupyter
  2. 源激活TESTENV
  3. pip install https://github.com/GoogleCloudPlatform/DataflowPythonSDK/archive/v0.2.3.tar.gz
  4. jupyter笔记本

上面的命令安装了Python Dataflow的v0.2.3版.请将其更改为所需的版本.在第一个笔记本单元格中执行以下import语句:

将google.cloud.dataflow导入为df

现在你已经准备好了.您可以将工作流代码分布在多个单元格上.查看以下笔记本,描述一个非常简单的工作流程:https://github.com/silviulica/WorkflowExamples/blob/master/notebooks/HelloWorld.ipynb