And*_*NER 4 theory encoding nlp linguistics
我使用"Lexical Encoding"这个词来表示我缺少一个更好的词汇.
一句话可以说是通信的基本单位,而不是一封信.Unicode尝试为所有已知字母表的每个字母分配一个数值.什么是一种语言的信,是另一种语言的雕文.Unicode 5.1当前为这些字形分配超过100,000个值.在现代英语中使用的大约180,000个单词中,据说用大约2,000个单词的词汇表,你应该能够以一般的方式进行交谈."Lexical Encoding"会对每个Word进行编码而不是每个Letter,并将它们封装在一个句子中.
// An simplified example of a "Lexical Encoding"
String sentence = "How are you today?";
int[] sentence = { 93, 22, 14, 330, QUERY };
Run Code Online (Sandbox Code Playgroud)
在此示例中,String中的每个Token都被编码为Integer.这里的编码方案根据字使用的广义统计排序简单地分配了一个int值,并为问号分配了一个常量.
最终,一个词既有拼写也有意义.任何"词法编码"都会保留句子的意义和意图,而不是语言特定的.英语句子将被编码为"......意义上的语言中性原子元素......",然后可以将其重构为具有结构化句法形式和语法结构的任何语言.
"Lexical Encoding"技术的其他例子是什么?
如果您对单词使用统计信息的来源感兴趣:http:
//www.wordcount.org