推论分析与预测分析的主要区别

mon*_*mon 7 statistics inference machine-learning prediction data-science

目的

为了澄清具有什么特征或属性,我可以说分析是推论性的或预测性的.

背景

参加一个涉及推理和预测分析的数据科学课程.解释(我理解)是

  • 推理

    从群体中的小样本中引入假设,并且在较大/整个群体中看到它是正确的.

    在我看来,这是概括.我认为诱导吸烟导致肺癌或二氧化碳导致全球变暖是推论分析.

  • 预测

    通过测量对象的变量来描述可能发生的事情.

    我认为,确定哪些特征,行为,评论让人们反应良好,并使总统候选人足够受欢迎成为总统是一种预测分析(这也在课程中被触及).

我对这两个人有点困惑,因为它看起来有灰色区域或重叠.

贝叶斯推断是"推论",但我认为它用于预测,例如垃圾邮件过滤器或欺诈性金融交易识别.例如,银行可以使用先前对变量的观察(例如IP地址,发起人国家,受益人帐户类型等)并预测交易是否是欺诈性的.

我认为相对论是一种推论分析,它从观察和思想实验中引入了一个理论/假设,但它也预测了光的方向会被弯曲.

请帮助我理解什么是必须具有的属性,以将分析分类为推理或预测.

dra*_*nxo 7

“什么问题?” 由Jeffery T. Leek撰写的Roger D. Peng对典型数据科学工作流中进行的各种分析类型进行了很好的描述。要专门解决您的问题:

推理数据分析可量化观察到的模式是否可能超出现有数据集。这是形式科学文献中最常见的统计分析。一个例子是研究美国州级空气污染是否与预期寿命相关(9)。在非随机实验中,通常只能确定两个度量之间是否存在关系,而不能确定其潜在机制或原因。

预测数据分析超越了以人口规模量化关系的推理数据分析,它使用度量的子集(特征)来预测单个人或单位上的另一度量(结果)。诸如FiveThirtyEight.com之类的网站使用轮询数据来预测人们在选举中的投票方式。预测性数据分析仅表明您可以预测另一项测量;他们不一定解释为什么选择预测有效。

数据分析流程图


Alx*_*xRd 6

两者之间有一些灰色区域,但我们仍然可以做出区分.

推理统计是指您试图了解导致某种结果的原因.在这样的分析中,特别关注自变量,并且您希望确保您具有可解释的模型.例如,您在一项研究中检验吸烟是否会导致肺癌的例子是推论.在这里,您试图仔细检查导致肺癌的因素,吸烟恰好是其中之一.

在预测分析中,您更感兴趣的是使用某个数据集来帮助您预测结果变量值的未来变化.在这里,您可以使模型尽可能复杂,只要它完成工作就无法解释.一个更简单的例子是房地产投资公司,它有兴趣确定哪个变量组合预测某个房产的主要价格,以便它可以获取它们以获取利润.潜在的预测因素可能是邻里收入,犯罪,教育状况,到海滩的距离以及种族构成.这里的主要目的是获得这些变量的最佳组合,以便更好地预测未来的房价.

这里是阴暗的地方.假设您对中年男性进行了一项研究,以确定心脏病的风险.要做到这一点,你需要测量体重,身高,种族,收入,婚姻状况,胆固醇,教育和一种名为"mx34"的潜在血清化学物质(只是这样做).假设你发现这种化学物质确实是心脏病的一个很好的危险因素.您现在已经实现了推理目标.但是,您对新发现感到满意,并开始怀疑是否可以使用这些变量来预测谁可能患上心脏病.您希望这样做,以便您可以建议预防措施,以防止未来的心脏病.