有多少数据有资格被归类为Bigdata?
有多大的数据可以决定是时候采用Hadoop等技术并利用分布式计算的强大功能?
我相信这些技术有一定的优势,那么如何确保使用Bigdata方法将利用当前的系统呢?
Bri*_*ell 12
"大数据"是一个模糊的术语,用于营销目的而非制定技术决策.一个人称之为"大数据"的另一个人可能只考虑在一个系统上进行日常操作.
我的经验法则是,大数据从一个工作数据集开始,在这个数据中,一组数据不适合单个系统的主存储器.工作集是您在给定时间积极处理的数据.因此,例如,如果您有一个存储10 TB数据的文件系统,但是您使用它来存储视频以进行编辑,那么您的编辑在任何给定时间可能只需要几百个数据; 它们通常将数据从光盘中流出,不需要随机访问.但是,如果您尝试针对定期更改的完整10 TB数据集执行数据库查询,则您不希望从磁盘上提供该数据; 这开始成为"大数据".
根据基本的经验法则,我现在可以为2 TB的RAM配置现成的Dell服务器.但是,如果将大量RAM放入单个系统中,您需要付出相当大的代价.单个服务器上的512 GB RAM要便宜得多,因此使用4台512 GB RAM的机器通常比使用2 TB的单台机器更具成本效益.因此,您可以说,超过512 GB的工作集数据(您需要在日常基础上访问任何给定计算的数据)才有资格成为"大数据".
考虑到为"大数据"系统开发软件而不是传统数据库的额外成本,对于某些人而言,转移到2 TB系统而不是重新设计他们的系统以分布在多个系统中可能更具成本效益,因此根据您的需要,512 GB和2 TB之间的数据可能是您需要迁移到"大数据"系统的地方.
我不会使用术语"大数据"来做出任何技术决定.相反,制定您的实际需求,并确定现在需要哪些技术来满足这些需求.考虑一下增长,但也要记住系统的容量仍在增长; 所以不要试图过度计划.许多"大数据"系统可能难以使用且不灵活,因此如果您实际上不需要它们将数据和计算分散到数十个或数百个系统,那么它们可能比它们的价值更麻烦.
Ama*_*mar 10
引用Bigdata的wiki页面:
当使用我们的传统数据库管理工具难以存储,搜索,分析,共享给定数量的数据时,大型复杂数据集被称为Bigdata.
基本上,它都是相对的.什么被认为是Bigdata取决于管理数据集的组织的能力.对于某些组织而言,首次面对数百GB的数据可能会引发重新考虑数据管理选项的需求.对于其他人来说,在数据大小成为重要考虑因素之前,可能需要数十或数百TB.
数据量只是定义Bigdata的关键要素之一.Variety数据和velocity数据增加是将数据集定义为Bigdata的另外两个主要因素.
Variety 数据意味着具有许多不同的数据和文件类型,这些数据和文件类型可能需要以超出传统关系数据库的方式进行分析和处理.这种类型的一些例子包括声音和电影文件,图像,文档,地理空间数据,网络日志和文本字符串.
Velocity是关于数据变化的速度以及必须如何快速处理以产生重要价值.传统技术尤其不适合存储和使用高速数据.所以需要新的方法.如果有问题的数据被创建并快速聚合并且必须迅速使用以发现模式和问题,则速度越快,您就越有可能遇到Bigdata问题.
顺便说一下,如果您正在寻找"经济高效"的解决方案,您可以探索亚马逊的EMR.