免费标记语料库用于命名实体识别

Dan*_*Man 9 corpus named-entity-recognition nltk tagged-corpus

我正在寻找一个免费标记的语料库,用于系统训练以进行命名实体识别.我找到的大多数(如"纽约时报")都很贵而且不开放.有人可以帮忙吗?

Tom*_*ris 6

http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html上有一个语料库列表

该列表上的CoNLL 2003语料库是免费的,可从 http://www.cnts.ua.ac.be/conll2003/ner/(annotations)和NIST(文本)获得.


ank*_*nfo 1

dbPedia开放且免费的

dbPedia 是根据 WikiPedia 构建的,它是一个非常大的语料库。rdfs:label在涉及所有dbPedia 标题转储的三元组上构建 Lucene 索引。

  • 正如其他答案之一所述,DBpedia 不是一个标记语料库。 (2认同)