任何人都可以解释数据仓库和OLAP多维数据集之间的真正区别吗?
他们对同样的事情有不同的看法吗?
其中一个与其他人相比是否被弃用?
其中一个是否有任何性能问题?
欢迎任何解释
我想知道是否numpy
可以用于构建最基本的多维数据集模型,其中存储所有交叉组合及其计算值。
让我们以以下数据为例:
AUTHOR BOOK YEAR SALES
Shakespeare Hamlet 2000 104.2
Shakespeare Hamlet 2001 99.0
Shakespeare Romeo 2000 27.0
Shakespeare Romeo 2001 19.0
Dante Inferno 2000 11.6
Dante Inferno 2001 12.6
Run Code Online (Sandbox Code Playgroud)
并且能够构建类似的东西:
YEAR TOTAL
AUTHOR BOOK 2000 2001
(ALL) (ALL) 142.8 130.6 273.4
Shakespeare (ALL) 131.2 118.0 249.2
Dante (ALL) 11.6 12.6 24.2
Shakespeare Hamlet 104.2 99.0 203.2
Shakespeare Romeo 27.0 19.0 46.0
Dante Inferno 11.6 12.6 24.2
Run Code Online (Sandbox Code Playgroud)
我希望使用类似的东西meshgrid
可以让我达到 75%。基本上,我想看看是否有可能用numpy
(而不是熊猫)构建所有预计算值的结构来构建一个结构,以便我可以检索所有可能组合的上述结果。为简单起见,我们仅将SUM
视为唯一可能的计算。也许这是一种圆整的询问方式,但可能numpy
是这样做的支柱,还是我需要使用其他东西?
最后,如果不可能, …
我有一个几何尺寸很小的立方体.目前整个过程需要2个小时.我现在已经对多维数据集进行了分区并遵循以下策略:
因为我在某些方面几乎没有刚性关系,所以我无法进行流程更新.我现在所有这些都变得灵活.但在那之后我的立方体的处理时间增加到2小时40分钟.
现在,我的问题是为什么过程更新需要这么长时间?以及如何让它加工更快?我只是一次处理2个分区.这是故障:
我有一个应用程序需要针对不同级别的聚合进行分析,这就是OLAP工作负载.我也想经常更新我的数据库.
例如,这是我的更新看起来像(架构看起来像:时间,目标,源IP,浏览器 - >访问)
(15:00-1-2-2010, www.stackoverflow.com, 128.19.1.1, safari) --> 105
(15:00-1-2-2010, www.stackoverflow.com, 128.19.2.1, firefox) --> 110
...
(15:00-1-5-2010, www.cnn.com, 128.19.5.1, firefox) --> 110
Run Code Online (Sandbox Code Playgroud)
然后我想问一下上个月从firefox浏览器访问www.stackoverflow.com的访问量是多少.
我知道Vertica系统可以以相对便宜的方式实现这一点(明智的性能和可扩展性,但可能不是成本方面的).我这里有两个问题.
1)是否有可以构建的开源产品来解决这个问题?特别是,蒙德里安系统的运作情况如何?(可扩展性和性能)2)是否有HBase或Hypertable基础解决方案(显然,裸HBase/Hypertable不能这样做)? - 但如果有基于HBase/Hypertable的项目,可扩展性可能不会成为IMO的问题)?
谢谢!
我在visual studio中构建了一个多维数据集并部署到SSAS.如何使用每晚sql批处理作业或其他方法刷新数据?TIA
即使有了它的所有功能,JPivot似乎有点过时了......
http://sourceforge.net/projects/jpivot/的最新版本是2008-03-17 ...
有没有其他轻量级客户端olap立方体浏览器,可以利用现代RIA工具包,如GWT,smartGWT,ZK,ExtJs等....?
我需要在现有的spring boot Web应用程序中添加OLAP报告支持.我遇到过多种BI工具,如BIRT,JasperServer Report和Saiku,但对于所有这些工具,我必须使用已经创建的多维数据集.如果数据有任何修改,它将不会反映在我的报告中.
是否有任何第三方工具可以帮助我在运行时创建多维数据集或通过在运行时向多维数据集添加数据来生成报表?
是否可以使用R查询SQL Server Analysis Services多维数据集?我有一个不同的外部服务器上的这个多维数据集,我在我的机器上工作,但我有我的域帐户在服务器上的管理员权限.简单地说,我想创建一个alaysis服务解决方案,起诉一些挖掘算法来检查Cube中的数据.例如,我可以用Excel做到这一点,但我需要使用R来利用与MS提供的不同的几种有趣的聚类算法.那可能吗?我应该在R中导入哪个包?
我只是在寻找从关系数据构建OLAP多维数据集的最佳解释和原因.那就是性能和查询优化吗?
如果您可以提供链接或指出构建多维数据集的最佳解释和原因,那将是很棒的,因为我们可以从关系数据库执行所有我们可以从多维数据集和多维数据集执行的操作更快地显示结果.是否有任何其他说明或原因?
我有3个具有相同结构但数据不同的数据库,因为它们来自不同的客户端.
现在,我有一个现有的SSAS项目.其数据源视图,多维数据集和维度只能使用或访问一个数据库.
这些可能吗?您能否提供见解和一些有用的参考资料?