Apache NiFi中的处理器属性和Flowfile属性之间的差异

Ada*_*dam 1 etl dataflow apache-nifi hortonworks-dataflow

我目前的理解是NiFi处理器属性特定于该处理器。因此,向处理器添加新属性将仅在该处理器中可见,而不会传递给以后的处理器块?

这就是为什么UpdateAttribute有必要添加在流文件中遍历数据流时保留在其中的元数据的原因:

更新属性NiFi处理器模块

那么,允许用户在处理器中添加自定义属性(超出该处理器执行所定义和要求的属性)的价值是什么?它类似于创建可以在其他属性中使用的变量吗?

处理器块属性

Siv*_*man 7

每个人都开始在NiFi中构建数据流时想到的一个很好的问题。

首先要做的是:属性与FlowFile属性

正如您自己在问题本身中提到的那样,Properties是一些用于控制行为的元素,ProcessorAttributes这些元素是您的流程中的元数据。

一个简单的例子,让GetFile处理器。它公开的属性(例如Input DirectoryFile Filter等)告诉您的处理器在何处以及如何查找源数据。当处理器成功找到某个与您的配置匹配的源时,它将启动流程,这意味着将FlowFile生成a。该FlowFile将携带源数据的内容以及源的一些元数据,例如文件名,文件大小,上次修改时间等。此元数据实际上可以帮助您降低后续处理器的处理流程,例如检查文件的类型并相应地路由FlowFile。请注意,元数据不是固定的。不同的处理器会有所不同。

有几个核心属性,其每一个处理器将增加像application.typefilesizeuuidpath,等,

当用户未将自定义属性添加到属性时,它们的目的是什么?

NiFi提供给处理器使用或忽略的一项功能。并非所有处理器都允许添加自定义属性。只有选择性处理器可以。

让我们InvokeHttp举个例子。该处理器允许开发人员创建自定义属性。当用户添加新的自定义属性时,该属性将作为标头添加到处理器将要进行的HTTP调用中,因为处理器是以这种方式构建的。它查找任何动态(自定义)属性。如果存在,则将其视为用户要发送的自定义标头。

至少,在此处理器的上下文中,将标头数据捕获为元数据没有意义,因为它对于后续处理器可能没有用,但是当提供自定义属性时,某些其他处理器的行为会有所不同,例如UpdateAttribute其唯一目的是将任何自定义属性作为属性添加到传入的FlowFile中。