用于 ETL 的 Apache NIFI

aru*_*kar 5 etl apache-nifi

将 Apache NIFI 用于 ETL 过程的效果如何,源为 HDFS,目标为 Oracle DB。Apache NIFI 与 Pentaho、Datastage 等其他 ETL 工具相比有哪些局限性?

Den*_*din 7

NiFi的主要优点

NiFi的主要优点:

  1. 直观的图形用户界面,可以轻松检查数据
  2. 强有力的交货保证
  3. 低延迟,您可以支持批处理和流处理用例
  4. 它可以处理任何格式,不仅限于SQL表,还可以移动日志文件等。
  5. 模式感知,并且可以与 Kafka、Flink、Spark 等解决方案共享模式

NiFi的主要限制

NiFi 实际上是一个用于移动数据的工具,您可以丰富单个记录,但通常会提到用小 t 进行“EtL”。在 NiFi 中您不想做的一件典型事情是连接两个动态数据源。

对于连接表,经常使用 Spark、Hive 或经典 ETL 替代品等工具。

对于加入流,经常使用 Flink 和 Spark Streaming 等工具。

结论

NiFi 是一个很棒的工具,您只需要确保将它用于正确的用例即可。如果需要,您可以使用其他工具来补充它。


特强全面披露:我是Cloudera的员工,该公司支持NiFi以及Spark和Flink等其他项目。我之前也使用过其他ETL工具,但程度不如NiFi。


Tho*_*ath 0

不确定 sqoop,我可以解释使用 Apache Nifi 的好处。在您的情况下,HDFS 中的数据可以是任何格式(非结构化),Nifi 能够处理并将其转换为您选择的格式,以便您可以直接将其保存到任何 RDBMS。Nifi以各种有效的方式处理背压以实现无损传输。