Google Cloud Dataprep可以监控GCS路径中是否有新文件吗?

Mat*_*rne 5 google-cloud-platform gcp google-cloud-dataprep

Google Cloud Dataprep看起来很棒,我们已经使用它手动导入静态数据集,但是我想执行一次以上,以便它可以使用上载到GCS路径的新文件。我可以看到您可以为Dataprep设置时间表,但是在导入设置中的任何地方都看不到它将如何处理新文件。

这可能吗?似乎很明显的需求-希望我错过了明显的东西。

Mat*_*rne 6

关于此的进一步更新。由于我的问题,Dataprep于2018年1月23日发布新版本,它具有独立于Dataprep重新运行数据流作业的功能。

当您执行Dataprep作业时,它将生成一个Dataflow模板,您可以在以后使用该模板手动触发作业,并允许传入某些参数。

能够触发新文件的步骤(请注意,这是Beta版,因此Google可能会更改确切流程):

  1. 创建您的流程并运行相关的流程/配方。手动迭代/重复,直到您拥有自己想要的食谱为止。运行愉快时,请再次运行该作业(应该是附加数据而不是替换的作业,因为您可能希望附加新内容)。取消选中“配置文件结果”(新功能)以减少开销可能是一个好主意,因为这将是可重复的工作。
  2. 完成后,转到“作业详细信息”页面,然后单击“ 导出结果”按钮,您将在此处看到指向数据流模板的链接。复制文本。请注意,数据流模板路径仅适用于2018年1月23日版本之后执行的作业,因为它是一项新功能。
  3. 然后,您可以转到DataFlow并选择CREATE JOB FROM TEMPLATE,选择Custom template并将其粘贴到模板路径中,以查看如何触发数据流作业。在那里,您将看到可以提供的参数,例如GCS输入路径
  4. 编写由GCS写入触发的Google Cloud Function,并使用事件的详细信息按照上面的步骤(3)使用文件路径执行模板。


Lar*_*mel 5

您可以通过在数据集期间单击文件夹左侧的+图标来将GCS路径添加为数据集(请参见屏幕截图)。当为使用此数据集的流设置计划的作业时,该目录中的所有文件(包括新文件)将在每次计划的作业运行时获取。

在此处输入图片说明

  • 将处理后的文件移动到其他目录是一种方法。然后,您可以设置作业以附加到BQ表。 (2认同)