信息是数据的子集吗?

Jas*_*ker 5 information-theory

我道歉,因为我不知道这是否更像是一个属于mathoverflow的数学问题,或者它是否属于这里的计算机科学问题.

也就是说,我相信我理解数据,信息和知识之间的根本区别.我的理解是信息包含数据和意义.我不清楚的一件事是信息是否数据.信息被认为是一种特殊的数据,还是完全不同的东西?

mjv*_*mjv 6

的话data,information并且knowlege是用于分类,基于值的概念在主观方式,一般的"简洁"和设置特定信息"有用".
这些词没有确切的含义,因为它们与信息处理的基本目的和方法有关; 在信息理论领域,这些都没有任何意义,因为这三者是相同的东西:"信息"的集合(在信息 - 理论意义上).
然而,在上下文中,它们总结了下面松散解释的信息集的一般性质.

信息是从数据中获得的(或有时是诱导的),但它可以更丰富,更清洁(其中某些值已得到纠正)和"更简单"(从而删除了一些不相关的数据).因此,在集合理论意义上, 信息不是数据的子集,而是一个单独的集合[通常与数据相交,但也可以具有自己的元素].

知识(有时称为洞察力)是另一个层次,它基于信息,也不是信息的[集合论]子集.事实上,知识通常没有直接参考信息元素,而是讲述有关信息/数据的"元故事".

根据数据 - >信息 - >知识链,较高级别是较低级别的子集的毫无根据的想法,可能源于[通常] [IT意义]信息量减少的事实.但定性地说这个信息是不同的,因此没有真正的[集合论]子集关系.

示例:

  • 华尔街的原始证券交易所数据是...... 数据
    "数据之海"!有人很难直接从这些数据中找到他/她需要的东西.这些数据可能需要标准化.例如,价格信息有时可以用1/32美元精度的文本字符串表示,在其他情况下,价格可以是真正的二进制整数,精度为1/8美元.此外,表示买方ID或卖方ID的字段可能包括拼写错误,因此指向错误的卖方/买方.等等

  • 从上面制作的电子表格是...... 信息
    对数据应用了各种过程: -
    清理/更正各种值 -
    交叉引用(例如查找相关代码,例如添加列以显示个人/公司的实际名称)在买方ID列
    旁边 - 当与同一事件有关的重复记录(但是来自不同来源)使用相互证实,但也合并在一条记录中时.
    -aggregating:例如为给定股票计算所有交易价值的总和(而不是显示所有单个交易.
    所有这些(然后是一些)将数据转换为信息,即[IT意义]的信息很容易的信息可用,可以快速找到一些"数据",例如2009年6月8日IBM股票的开盘价和收盘价.
    请注意,虽然使用起来更方便,但更准确/更准确,并且还可以简化,那里没有真正的[IT意义]信息,这些信息无法通过相对简单(如果只是苦心经营)的过程从原始信息中找到或计算出来.

  • 金融分析师的报告可能包含...... 知识
    例如,如果报告显示[虚假示例],每当石油价格超过某个阈值时,黄金价值开始下降,但随后价格再次快速上涨咖啡和茶稳定.这种特殊见解构成了知识.这些知识可能一直隐藏在数据中,但只有在应用了一些奇特的统计分析和/或需要人类专家的帮助才能找到或确认这些模式时才会变得明显.

顺便说一下,在信息论意义上的"信息"一词中,"数据","信息"和"知识"都包含[IT意义]信息.
人们可能会在滑坡上说"当我们上链时熵减少",但这只是松散的,因为

  • 熵减少不直接或系统地与"对人类的有用性"联系在一起
    (典型的例子是压缩文本文件具有较少的熵但是没有乐趣阅读)
  • 实际上存在信息丢失(除了熵丢失)
    (例如,当数据汇总时,关于个别记录的[IT意义]信息会丢失)
  • 特别是在信息 - > Knowlege的情况下,abstration水平的变化

最后一点(如果我还没有让所有人感到困惑的话......)这个data->info->knowledge链是有效地对于[IT-sense]信息的预期用途/目的的想法.
ewernli在下面的评论中提供了拼写检查的例子,即当重点是英语拼写时,来自华尔街天才的最有见地的论文仅仅是一串词,有效的"原始数据",其中一些需要改进(沿正字目的链.
同样的,使用上千报纸上的文章通常(我们的期望...)的语言学家至少包含一些有识之士/知识(一般意义上的),可能只是考虑到这些文章的原始数据,这将有助于他/她自动创建法语 - 德语词典(这将是信息),当他在项目上工作时,他可能会发现使用两种语言之间的常用词语的系统语义转换,从而收集对不同文化的洞察力.