Dan*_*Man 9 corpus named-entity-recognition nltk tagged-corpus
我正在寻找一个免费标记的语料库,用于系统训练以进行命名实体识别.我找到的大多数(如"纽约时报")都很贵而且不开放.有人可以帮忙吗?
在http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html上有一个语料库列表
该列表上的CoNLL 2003语料库是免费的,可从 http://www.cnts.ua.ac.be/conll2003/ner/(annotations)和NIST(文本)获得.
dbPedia是开放且免费的
dbPedia 是根据 WikiPedia 构建的,它是一个非常大的语料库。rdfs:label
在涉及所有dbPedia 标题转储的三元组上构建 Lucene 索引。
归档时间: |
|
查看次数: |
10161 次 |
最近记录: |