Jmu*_*sul 25 mysql database wordnet thesaurus semantics
我正在尝试启动并运行一个简单的同义词数据库,因此我可以找到用户输入的单词的同义词(没有别的!).为此我抓了一个Wordnet sql thesarus(http://wnsql.sourceforge.net/)的副本,但现在我看到了所有这些表,我找不到任何关于其内容的简单解释:
adjpositions
adjpositiontypes
casedwords
lexdomains
lexlinks
linktypes
morphmaps
morphs
postypes
samples
semlinks
senses
synsets
vframemaps
vframes
vframesentencemaps
vframesentences
words
有人可以告诉我这些表包含哪些内容以及我需要哪些内容,因为我无法根据他们的数据来破译他们的内容.
Pau*_*sch 38
WordNet是一个超酷的单词数据库.我自己一直在研究它.我将在下面列出我的发现 - 希望它能帮助您更好地理解表格.
Synset表 synsets表是数据库中最重要的表之一.它负责容纳WordNet中的所有定义.synset表中的每一行都有一个synsetid,一个定义,一个pos(词性字段)和一个lexdomainid(链接到lexdomain表).在WordNet数据库中有117373个同义词集.
单词表 WordNet也有一个"单词"表,只有两个字段:一个wordid和一个"引理".单词表负责容纳Wordnet数据库中的所有引理(基本单词).此表中有146625个条目
那么..这两个表是如何联系起来的?答案?感觉表!
Sense Table 
感知表负责将单词(在单词表中)与定义(在synset表中)链接在一起.检测表中的条目称为"字检测对" - 因为wordid与synset的每个配对都是一个单词的完整含义 - "单词的意义".
WordNet数据库中总共有206,354个单词的含义.
Lexdomains表 Lexdomains表由sense表引用,用于定义单词检测对所属的词法域.lexdomains表中有45个词法域.因此,lexdomain表是WordNet的"标记"字识别对的方式.但是,它非常有限,因为词义对只能属于一个词法域.
45个词汇域包括:
形容词: all,pert
副词 全部
名词 上衣,行为,动物,神器,属性,身体,认知,通信,事件,感觉,食品,集团,位置,动机,对象,人,现象,植物,拥有,过程,数量,linkdef,形状,状态,物质, 时间,
动词 身体,变化,认知,沟通,竞争,消费,联系,创作,情感,运动,感知,拥有,社会,stative,天气,ppl
词典表 单词表中的一些词自然有第一个字母大写,即:"A-team".由于单词表将所有单词存储为小写,因此WordNet使用此表来指定单词的大写版本.此表中有40313个条目.
WordNet DB中还有许多其他表,一旦我对它们进行了研究,我将再次发布.
查找同义词 要回答有关同义词的问题 - 您需要执行以下操作.
假设您想要找到单词"Carry"的同义词.为此,您首先要在单词表中搜索与"carry"匹配的引理.这将产生wordid 21253.然后,您将搜索感官表,找到单词carry的所有字检测对.这产生了41个结果 - 每个结果列出了wordid 21253,以及senseid(它是词义对的索引)和synsetid.
现在,您需要查询每个返回的synsetid的synset表,以便您可以访问synset表中的关联定义字段.
最后,要找到列出的每个同义词集的同义词,您只需要在检测表中搜索共享相同synset的其他单词检测对.
示例:下面列出了"carry"一词的41个字检测对中的一个:
 如果我们查找此synsetid 202083512的定义,您会发现"传输或作为传输媒介"
如果我们查找此synsetid 202083512的定义,您会发现"传输或作为传输媒介"
要查找此定义的所有同义词,您将在感测表中搜索相同的synsetid 202083512.这会生成同义词:channel,conduct,convey,impart和transmit(注意:您需要左键加入单词表才能获得实际的引理)
我希望这有助于为你揭开WordNet的神秘面纱......我发现它很酷......
Paul Preibisch解释了几个核心表格,以下是其中的简短说明:
adjpositiontypes-定义形容词在英语中的三个位置:谓语,定语和立即名词。
adjpositions-将具体单词(形容词)与其在adjpositiontypes表中允许的位置类型的链接。
链接类型-定义Wordnet中使用的所有关系(链接)类型,其中大约二十种。lexlinks和semlinks表都使用此表来定义每个链接的类型。某些链接类型被标记为递归,这意味着,例如,如果“家具”是“椅子”的上身,则“椅子”是“家具”的下位词。
lexlinks -词汇链接,即词与词之间的关系。示例:
悲伤-悲伤(派生)
semlinks-语义链接,即同义词集之间的关系。示例:
椅子-家具(高音)
词素 -连接到“单词”表,包含不规则单词形式。一个单词可以具有多个变体,而一个单词可以是多个单词的不规则形式,因此您还有morphmaps表。示例:
算盘(单词)-算盘(词)abhor 
(单词)-厌恶,不喜欢(词)
笔迹 -定义“词性”。仅包含以下值:
n –名词,v –动词,a –形容词,r –副词,s –形容词卫星。
样本 -同义词集的例句。一个同义词集可以具有多个样本。
vframemap和vframe -vframe定义了一种标准的“动词模板”。Vframemap将单词(动词)与可以在其中出现的相应vframe链接。
vframesentencemaps和vframesentences-与前两个表相似,在这里,您拥有完整的句子作为动词模板。