使用Hadoop可视化大型数据集

one*_*elf 5 plot hadoop data-visualization bigdata

我正在寻找一个框架,框架的组合,最佳实践或关于使用Hadoop可视化大型数据集的教程.

不是在寻找一个框架来可视化运行Hadoop作业或管理Hadoop上的磁盘空间的机制.我正在寻找一种方法或指南,使用图形和图表等可视化HDFS中包含的数据.

例如,假设我有一组数据点存储在HDFS中的多个文件中,我想显示数据的直方图.我唯一的选择是编写一个自定义地图/减少作业,试图找出哪些点属于哪个桶,将总数写入文件,然后使用绘图库来可视化?

我是否需要推出自定义解决方案,还是还有其他人在那里做这类事情?我试着在网上看,但我找不到与此直接相关的东西.

谢谢您的帮助

Sup*_*gly 1

我们在Datameer做了类似的事情。这些文件需要更多的处理步骤才能实现我们的可视化,但我们在 Hadoop 上本地运行,因此文件不会太远。