我对WordNet数据文件格式有疑问.wndb(5)手册页部分说:
源/目标字段区分词汇和语义指针.它是一个四字节字段,包含两个两位十六进制整数.前两位数字表示当前(源)synset中的字数,后两位数字表示目标synset中的字数.值0000表示pointer_symbol表示当前(源)synset与synset_offset指示的目标synset之间的语义关系.
不同同义词中两个单词之间的词汇关系由源和目标单词数中的非零值表示.该字段的第一个和最后两个字节分别表示源和目标同义词中的单词数,关系成立.字符号从左到右分配给同义词集中的单词字段,从1开始.
我理解源/目标数字非零时的第二段,但源/目标为"0000"时的含义仍然不清楚.
让我举个例子来说明"贵族"这个词.该index.noun条目是:
贵族n 1 4 @〜#m + 1 0 09807754
和相应的data.noun条目是:
09807754 18 n 03 aristocrat 0 blue_blood 0 patrician 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102~09840639 n 0000~09872782 n 0000~10083823 n 0000~10175090 n 0000~10285135 n 0000~10472799 n 0000~10474064 n 0000~10505732 n 0000~10506642 n 0000 | 贵族的一员
第一个"ptr"是:
@ 09623038 n 0000
并且该data.noun条目以:
09623038 18 n 01 leader 0 058 @ 00007846 n 0000 ...
我不清楚这种关系是由哪个词组成的.上位词("@")关系是否仅适用于目标synset中所有单词的原始单词("aristrocrat")(在这种情况下,只有"leader")?
或者,源关联集中的所有单词("贵族","蓝血"和"贵族")的关系是否适用于目标同义词集中的所有单词?
该关系确实适用于源同义词集中的所有单词与目标同义词集中的所有单词。
这并不意味着领导者总是贵族的上位词,但它适用于贵族(贵族的成员)和领导者(统治、指导或激励他人的人)的深思熟虑的含义。有些关系听起来很奇怪,但 WordNet 并不完美,也不可能完美。