从文本中有效地提取WikiData实体

hab*_*ats 6 scala information-retrieval machine-learning wikidata wikidata-api

我有很多文本(数百万),从100到4000字不等.文本被格式化为书面作品,带有标点符号和语法.一切都用英文.

问题很简单:如何从给定文本中提取每个WikiData实体？

实体被定义为每个名词,正确或规则.即,人,组织,地点和椅子,土豆等的名称.

到目前为止,我已经尝试了以下内容:

使用OpenNLP对文本进行标记,并使用预先训练的模型来提取人员,位置,组织和常规名词.
在适用的情况下应用Porter Stemming.
将所有提取的名词与wmflabs-API匹配,以检索潜在的WikiData ID.

这有效,但我觉得我可以做得更好.一个明显的改进是在本地缓存相关的WikiData,我打算这样做.但是,在我这样做之前,我想检查是否有其他解决方案.

建议？

我标记了Scala的问题,因为我正在使用Spark来执行任务.

一些建议：

考虑斯坦福 NER 与 OpenNLP 的比较，看看它在你的语料库上的比较如何
我想知道大多数实体名称的词干提取的价值
我怀疑您通过将任务划分为离散阶段可能会丢失信息
尽管 Wikidata 是新的，但任务却不是，因此您可以查看 Freebase|DBpedia|Wikipedia 实体识别|消歧论文

特别是，DBpedia Spotlight 就是专门为此任务而设计的系统。

http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38389.pdf http://ceur-ws.org/Vol-1057/Nebhi_LD4IE2013.pdf

归档时间：	9 年，11 月前
查看次数：	578 次
最近记录：	9 年，11 月前

Scala隐式类型转换的性能影响是什么？ 33

Scala 2.10反射,如何从案例类中提取字段值 30

演员之间的Akka Circuit Breaker分享 12

什么时候+ = b在Scala中成为a = a + b？ 12

为Scala 2.10中的所有集合设置并行度级别？ 10

Doobie - 将任意效果提升到 ConnectionIO CE3 10

scala observable使用没有中间数据结构更新的序列统一可观察 9

如何在不运行 Apache Spark 作业的情况下获取它的 DAG？ 7

机器学习:根据独立变量的影响规范化目标变量 7

从其字段的树中访问类树 6

堆栈和堆的内容和位置是什么？ 7847

不同浏览器中URL的最大长度是多少？ 4676

你如何获得JavaScript的时间戳？ 3844

HashMap和Hashtable之间的区别？ 3604

如何列出目录的所有文件？ 3474

如何更新GitHub分叉存储库？ 3390

如何确定数组是否包含Java中的特定值？ 2194

在JavaScript中生成特定范围内的随机整数？ 1836

如何自动调整图像大小以适合div容器 1394

如何在Ruby中将字符串转换为小写或大写 1081