标题几乎总结了这个问题.我注意到在一些论文中,人们提到了NER的BILOU编码方案,而不是典型的BIO标记方案(例如Ratinov和Roth在2009年的这篇论文http://cogcomp.cs.illinois.edu/page/publication_view/199)
从使用2003 CoNLL数据开始,我知道这一点
B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)
Run Code Online (Sandbox Code Playgroud)
虽然我被告知BILOU中的单词代表
B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'
Run Code Online (Sandbox Code Playgroud)
我也看到人们引用另一个标签
E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag …
Run Code Online (Sandbox Code Playgroud)