如何知道新数据已添加到HDFS?

Ana*_*nda 6 hadoop mapreduce

我正在实现一个基于发布订阅模型的通知系统,以在数据到达/加载到HDFS时通知其可用性。我没有找到在哪里寻找的方法。是否可以使用任何HDFS API来执行此操作,或者应该使用哪种方法来获取写入HDFS的新数据的信息?我正在使用Hadoop v2.0.2,并且我不想使用HCatalog,我想实现自己的工具来执行此操作。

Tuc*_*ker 1

如果您使用 HDFS,您可能需要查看 HBase,因为它具有您想要的功能。在 HBase 中,您可以创建一个预置(或后置)协处理器,其本质上与 MySQL 触发器等效 - 每次将数据写入表时运行一些代码。

如果 HBase 不适合您的用例并且您必须使用 HDFS,据我所知没有类似的触发器。您可以尝试使用自己的代码包装 HDFS API,以便在适当的情况下每当数据写入文件系统时执行通知。或者,您可以轮询 HDFS 进行更改(这听起来像是一个丑陋的替代方案)...

希望有帮助