小编YuG*_*rin的帖子

是否在HDFS中为Spark分割了压缩的Parquet文件?

在这个主题上搜索和阅读互联网上的答案时,我会收到令人困惑的信息.有谁可以分享他们的经验?我知道gzipped csv不是这样的事实,但是Parquet的文件内部结构可能是Parquet vs csv完全不同的情况?

gzip apache-spark parquet

7
推荐指数
1
解决办法
4288
查看次数

建模和查询多个事实表

再会!

我有一个关系数据源,其中包含 3 个事实表,这些事实表彼此相关且模型相关

患者医生就诊(EncounterEventFact 表)、向患者分配诊断(DiagnosisEventFact 表)并收集患者的实验室结果(LabComponentResultFact 表),如下图所示。他们都共享 EncounterKey 一个密钥,指定一次独特的就诊。所有 EncounterKey 都在 EncounterEventFact 表中,并且仅存在一次。我在内存中使用 SSAS 表格来对数据进行建模。

每个事实表都有几百万行(2-4 百万行)。DiagnosisDim 有几万行。PatientDim 有几百万行(<1000 万行)。LabDim 有几百条记录。这是一个只有 3 个主要尺寸的简化模型。

我的测量是 DiagnosisEventFact 上的 EncounterKeys 的不同计数和 LabComponentResultFact 上的 EncounterKeys 的不同计数。

正在开发的样本报告在诊断方面进行了选择,显示了该诊断的独特访问次数以及该诊断的实验室收集访问次数。

诊断 count_visits_diagnosis count_visits_labs


ABC 5 0

防御力 10 5

ETC

当我选择报告中的所有诊断时,问题就出现了。诊断计数可以立即测量负载,而实验室计数则需要很长时间才能测量。当我选择一些诊断报告时,它的工作速度很快。

如何改进我的 SSAS 表格模型或计算以有效处理此类报告?

不幸的是,我无法在数据源端重新建模数据。

在此输入图像描述

sql-server ssas dax ssas-tabular powerbi

5
推荐指数
1
解决办法
3359
查看次数

使用数据工厂移动文件时如何在目标中保留文件的原始名称?

有没有办法在将原始文件从 Azure Blob 存储移动到 Azure 数据工厂中的 Azure Data Lake 时保留原始文件的名称?目前,它们被 Azure 重新命名为完全没有意义的东西

azure azure-data-factory

3
推荐指数
1
解决办法
3989
查看次数