在这个主题上搜索和阅读互联网上的答案时,我会收到令人困惑的信息.有谁可以分享他们的经验?我知道gzipped csv不是这样的事实,但是Parquet的文件内部结构可能是Parquet vs csv完全不同的情况?
再会!
我有一个关系数据源,其中包含 3 个事实表,这些事实表彼此相关且模型相关
患者医生就诊(EncounterEventFact 表)、向患者分配诊断(DiagnosisEventFact 表)并收集患者的实验室结果(LabComponentResultFact 表),如下图所示。他们都共享 EncounterKey 一个密钥,指定一次独特的就诊。所有 EncounterKey 都在 EncounterEventFact 表中,并且仅存在一次。我在内存中使用 SSAS 表格来对数据进行建模。
每个事实表都有几百万行(2-4 百万行)。DiagnosisDim 有几万行。PatientDim 有几百万行(<1000 万行)。LabDim 有几百条记录。这是一个只有 3 个主要尺寸的简化模型。
我的测量是 DiagnosisEventFact 上的 EncounterKeys 的不同计数和 LabComponentResultFact 上的 EncounterKeys 的不同计数。
正在开发的样本报告在诊断方面进行了选择,显示了该诊断的独特访问次数以及该诊断的实验室收集访问次数。
诊断 count_visits_diagnosis count_visits_labs
ABC 5 0
防御力 10 5
ETC
当我选择报告中的所有诊断时,问题就出现了。诊断计数可以立即测量负载,而实验室计数则需要很长时间才能测量。当我选择一些诊断报告时,它的工作速度很快。
如何改进我的 SSAS 表格模型或计算以有效处理此类报告?
不幸的是,我无法在数据源端重新建模数据。
有没有办法在将原始文件从 Azure Blob 存储移动到 Azure 数据工厂中的 Azure Data Lake 时保留原始文件的名称?目前,它们被 Azure 重新命名为完全没有意义的东西
apache-spark ×1
azure ×1
dax ×1
gzip ×1
parquet ×1
powerbi ×1
sql-server ×1
ssas ×1
ssas-tabular ×1