Mat*_*rne 5 google-cloud-platform gcp google-cloud-dataprep
Google Cloud Dataprep看起来很棒,我们已经使用它手动导入静态数据集,但是我想执行一次以上,以便它可以使用上载到GCS路径的新文件。我可以看到您可以为Dataprep设置时间表,但是在导入设置中的任何地方都看不到它将如何处理新文件。
这可能吗?似乎很明显的需求-希望我错过了明显的东西。
关于此的进一步更新。由于我的问题,Dataprep于2018年1月23日发布了新版本,它具有独立于Dataprep重新运行数据流作业的功能。
当您执行Dataprep作业时,它将生成一个Dataflow模板,您可以在以后使用该模板手动触发作业,并允许传入某些参数。
能够触发新文件的步骤(请注意,这是Beta版,因此Google可能会更改确切流程):
您可以通过在数据集期间单击文件夹左侧的+图标来将GCS路径添加为数据集(请参见屏幕截图)。当为使用此数据集的流设置计划的作业时,该目录中的所有文件(包括新文件)将在每次计划的作业运行时获取。
| 归档时间: |
|
| 查看次数: |
788 次 |
| 最近记录: |