hab*_*ats 6 scala information-retrieval machine-learning wikidata wikidata-api
我有很多文本(数百万),从100到4000字不等.文本被格式化为书面作品,带有标点符号和语法.一切都用英文.
问题很简单:如何从给定文本中提取每个WikiData实体?
实体被定义为每个名词,正确或规则.即,人,组织,地点和椅子,土豆等的名称.
到目前为止,我已经尝试了以下内容:
这有效,但我觉得我可以做得更好.一个明显的改进是在本地缓存相关的WikiData,我打算这样做.但是,在我这样做之前,我想检查是否有其他解决方案.
建议?
我标记了Scala的问题,因为我正在使用Spark来执行任务.
一些建议:
特别是,DBpedia Spotlight 就是专门为此任务而设计的系统。
http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38389.pdf http://ceur-ws.org/Vol-1057/Nebhi_LD4IE2013.pdf