我正在尝试缓冲许多 Avro GenericRecords(256mo),以便将它们转换为镶木地板文件。
为了做到这一点,我需要一种方法(方法或外部 api)来获取每个 GenericRecord 大小。
你知道我该怎么做吗?
多谢
我们正在寻找一种解决方案,以便根据镶木地板/ avro架构创建一个外部蜂巢表来从镶木地板文件中读取数据.
换句话说,如何从镶木地板/ avro架构生成一个蜂巢表?
谢谢 :)
在互联网上的几个来源中,它解释了HDFS的构建是为了处理比NoSQL技术更多的数据(例如Cassandra).一般来说,当我们超过1TB时,我们必须开始考虑Hadoop(HDFS)而不是NoSQL.
除了体系结构和HDFS支持批处理以及大多数NoSQL技术(例如Cassandra)执行随机I/O这一事实,除了架构设计差异之外,为什么NoSQL解决方案(再次,例如Cassandra)不能处理尽可能多的数据作为HDFS?
为什么我们不能将NoSQL技术用作Data Lake?为什么我们只应将它们用作大数据架构中的热存储解决方案?