Ibu*_*Ibu 4 architecture artificial-intelligence knowledge-capture
我已经多次在网上读过这个问题:
如何提取页面的含义.
而且我知道我的经验不足以提出任何解决方案.对我而言,这是网络编程的圣杯,甚至可能是整个计算机技术.
但是,通过想象力,让我们假设我已经编写了完全符合这一要求的终极剧本.例如,我输入以下文字:
想象力使人类度过了黑暗时代,走向了现在的文明状态.想象力导致哥伦布发现美国.想象力导致富兰克林发现电力.
我强大的脚本提取了意义,并说:
人类思考的能力使他们发现新事物.
出于本示例的目的,我使用"String"来解释文本的含义.但是如果我必须将它存储在数据库,数组或任何类型的存储中,那么我将使用的数据类型是什么?
请注意,我可以使用另一个使用不同类比但仍具有相同含义的文本,例如:
想象力有助于人类的进步.
现在我可以输入关于想象力重要性的搜索查询,并显示这两个结果.但他们将如何匹配?它会是一个字符串比较吗?有些整数,浮点数?也许甚至二进制?
这意味着什么?我想听听你的意见.
更新:让我简单地重述一下这个问题.
你如何在数据中表示意义?
假设我们的大脑无法访问形而上学的云服务器,意味着神经元连接,激素水平,电活动 - 甚至是量子波动 - 以及所有这些与外部世界和其他大脑之间的相互作用.所以这是个好消息:至少我们知道你的问题至少有一个答案(意思是在某处,不知何故).坏消息是,我们大多数人都不知道这是如何运作的,那些认为他们理解的人无法说服其他人或彼此.作为一个无能为力的人,我无法给出你的问题的答案,但提供了一个列表,我已经遇到了大问题的较小和退化版本.
如果要表示词法实体的含义(例如,概念,动作),可以使用分布式模型,例如向量空间模型.在这些模型中,通常意义具有几何分量.每个概念都表示为一个向量,您可以将概念放在一个空间中,使类似的概念彼此更接近.构造这样一个空间的一种非常常见的方法是选择一组常用词(基础词)作为空间的维度,并简单地计算目标概念在语音/文本中与这些基础词一起被观察的次数.类似的概念将用于类似的背景; 因此,他们的向量将指向类似的方向.最重要的是可以进行一堆加权,归一化,降维和重组技术(例如,顶部TF-IDF,http://en.wikipedia.org/wiki/Pointwise_mutual_information,SVD).一个略微相关,但概率 - 而不是几何 - 的方法是潜在的Dirichlet分配和其他生成/贝叶斯模型已经在另一个答案中提到.
向量空间模型方法有利于辨别目的.您可以决定两个给定短语是否在语义上相关(例如,将查询与文档匹配或查找类似的搜索查询对以帮助用户扩展其查询).但是在这些模型中合并语法并不是非常简单.我无法清楚地看到你如何通过向量来表示句子的含义.
语法形式可以帮助整合语法并将结构带入意义和概念之间的关系(例如,头部驱动的短语结构语法).如果您构建两个共享词汇和语法的代理并通过这些机制进行通信(即,将信息从一个传递到另一个),您可以说它们代表了含义.当一个机器人告诉另一个人通过内置或出现的语法和词汇选择"黑盒子上面的红色圆圈"而另一个人成功地挑选出预期的物体时,这意味着在何处以及如何表示意义.(见这个非常有趣的实验基础词汇:会说话的头脑.
捕获意义的另一种方法是使用网络.例如,通过将每个概念表示为图中的节点以及概念之间的关系作为节点之间的边缘,可以提出实际的意义表示.Concept Net是一个旨在表达常识的项目,可以将其视为常识概念的语义网络.在某种程度上,某个概念的含义通过其相对于网络中其他概念的位置来表示.
说到常识,Cyc是一个试图捕捉常识知识的项目的另一个雄心勃勃的例子,但它以与Concept Net截然不同的方式实现.Cyc使用定义明确的符号语言以非模糊的方式表示对象的属性和对象之间的关系.通过使用一套非常大的规则和概念以及推理引擎,人们可以得出关于世界的推论,回答诸如"马可生病吗?","给我一张悲伤的人的照片"等问题.
归档时间: |
|
查看次数: |
366 次 |
最近记录: |