如何开始大数据分析

har*_*hal 41 python hadoop r bigdata

我一直是R的长期用户,最近开始使用Python.使用传统的RDBMS系统进行数据仓库,使用R/Python进行数字运算,我觉得现在需要掌握大数据分析.

我想知道如何开始大数据处理. - 如何从Map/Reduce和Hadoop的使用开始简单

  • 如何利用我在R和Python中的技能来开始大数据分析.以Python Disco项目为例.
  • 使用RHIPE包并查找玩具数据集和问题区域.
  • 找到正确的信息,以便我决定是否需要从RDBMS类型数据库迁移到NoSQL

总而言之,我想知道如何从小规模开始,逐步建立我在大数据分析中的技能和专业知识.

感谢您的建议和意见.我为此查询的通用性质道歉,但我希望获得有关此主题的更多观点.

  • 苛刻

S.L*_*ott 29

以Python Disco项目为例.

好.玩那个.

使用RHIPE包并查找玩具数据集和问题区域.

精细.也玩这个.

不要冒汗找到"大"的数据集.即使是小数据集也存在非常有趣的问题.实际上,任何数据集都是起点.

我曾经建立了一个小型星型模式来分析组织的6000万美元预算.源数据在电子表格中,基本上是不可理解的.因此,我将其卸载到星型模式中,并用Python编写了几个分析程序,以创建相关数字的简化报告.

找到正确的信息,以便我决定是否需要从RDBMS类型数据库迁移到NoSQL

这很简单.

首先,获取一本关于数据仓库的书(Ralph Kimball的数据仓库工具包).

其次,仔细研究"星际模式" - 特别是Kimball解释的所有变体和特殊情况(深入)

第三,实现以下内容:SQL用于更新和事务.

在进行"分析"处理(大或小)时,几乎没有任何更新.SQL(和相关的规范化)不再重要.

Kimball的观点(以及其他人的观点)是大多数数据仓库都不在SQL中,而是在简单的平面文件中.数据集市(用于ad-hoc,切片和骰子分析)可以位于关系数据库中,以允许使用SQL轻松,灵活地处理.

所以"决定"是微不足道的.如果它是事务性的("OLTP"),则它必须位于Relational或OO DB中.如果是分析("OLAP"),它除了切片和骰子分析外不需要SQL; 即使这样,DB也会根据需要从官方文件中加载.