小编YuG*_*rin的帖子

是否在HDFS中为Spark分割了压缩的Parquet文件？

在这个主题上搜索和阅读互联网上的答案时,我会收到令人困惑的信息.有谁可以分享他们的经验？我知道gzipped csv不是这样的事实,但是Parquet的文件内部结构可能是Parquet vs csv完全不同的情况？

gzip apache-spark parquet

YuG*_*rin

lucky-day

7
推荐指数

1
解决办法

4288
查看次数

建模和查询多个事实表

再会！

我有一个关系数据源，其中包含 3 个事实表，这些事实表彼此相关且模型相关

患者医生就诊（EncounterEventFact 表）、向患者分配诊断（DiagnosisEventFact 表）并收集患者的实验室结果（LabComponentResultFact 表），如下图所示。他们都共享 EncounterKey 一个密钥，指定一次独特的就诊。所有 EncounterKey 都在 EncounterEventFact 表中，并且仅存在一次。我在内存中使用 SSAS 表格来对数据进行建模。

每个事实表都有几百万行（2-4 百万行）。DiagnosisDim 有几万行。PatientDim 有几百万行（<1000 万行）。LabDim 有几百条记录。这是一个只有 3 个主要尺寸的简化模型。

我的测量是 DiagnosisEventFact 上的 EncounterKeys 的不同计数和 LabComponentResultFact 上的 EncounterKeys 的不同计数。

正在开发的样本报告在诊断方面进行了选择，显示了该诊断的独特访问次数以及该诊断的实验室收集访问次数。

诊断 count_visits_diagnosis count_visits_labs

ABC 5 0

防御力 10 5

ETC

当我选择报告中的所有诊断时，问题就出现了。诊断计数可以立即测量负载，而实验室计数则需要很长时间才能测量。当我选择一些诊断报告时，它的工作速度很快。

如何改进我的 SSAS 表格模型或计算以有效处理此类报告？

不幸的是，我无法在数据源端重新建模数据。