小编Sco*_*son的帖子

自定义信息提取的最佳方法(NER)

我正在尝试从文本blob(NER/IE)中提取位置,并尝试了许多解决方案,这些解决方案都太过于无用了spacy,斯坦福等等.

我的数据集确实只有80-90%准确(spacy就像70%),我遇到的另一个问题是没有概率对这些实体意味着什么,所以我不知道自信而且不能继续因此.

我尝试了一种超级天真的方法,将我的blob分成单个单词,然后将周围的上下文作为特征提取,也使用位置地名查找(30/40k位置地名)作为特征.然后我只使用了一个分类器(XGDBoost),结果在我用大约3k手动标记数据点(100k总共只有3k位置)训练分类器时效果更好.各州/国家的准确率为95%,城市为85%.

这种方法很明显很糟糕,但为什么它比我尝试的一切都要好？我认为NER的黑盒方法不适用于我的数据问题,我尝试了spacy自定义培训,它真的只是看起来不会起作用.对实体没有信心也是一种杀手,因为他们给你的概率几乎毫无意义.

是否有一些我可以更好地解决这个问题,以进一步提高我的结果？浅nlp为2/3/4克？我的方法的另一个问题是分类器的输出不是一些顺序实体,它实际上只是分类的单词blob,它们需要聚集成一个实体,即: - >旧金山,CA只是'城市','城市','0','州',没有它们是同一个实体的概念

spacy示例:

示例blob:

About Us - Employment Opportunities Donate Donate Now The Power of Mushrooms Enhancing Response Where We Work Map Australia Africa Asia Pacific Our Work Agriculture Anti - Trafficking and Gender - based Violence Education Emergency Response Health and Nutrition Rural and Economic Development About Us Who We Are Annual Report Newsletters Employment Opportunities Video Library Contact Us Login My Profile Donate Join Our Email List Employment Opportunities Annual Report Newsletters Policies …

Run Code Online (Sandbox Code Playgroud)

python entity information-extraction stanford-nlp spacy

Sco*_*son

2017 12-02

4
推荐指数

1
解决办法

1212
查看次数