Man*_*anu 4 java wikipedia-api
我正在创建一个Spring应用程序,并且需要与Wikipedia集成。特别是,我想从一组给定的(大型)城市中提取数据,例如国家,网站和坐标。
我试图了解哪些库或框架可能有用,但是我要处理的主要问题是我想从中提取信息的页面没有引用结构。主要问题不是缺少某些信息,这是完全可以接受的,而是城市代表权在不同城市之间变化。例如,DBPedia本体(例如http://dbpedia.org/ontology/City)不能反映出我可以通过SPARQL查询从dbpedia.org/sparql中提取的内容。这样,我不知道如何系统地提取我需要的数据(即整个数据集)。
有什么技术可以支持我在一组预定义的城市中提取数据的任务?
一种解决方案是进行某种自然语言处理,以便在整个Wikipedia页面上查找所需的信息,但是如果我必须自己编写,则需要大量的精力。另一种解决方案是利用结构化数据源,该结构化数据源为我预处理了Wikipedia,并为所包含的信息提供了某种结构,但我找不到。在第三个解决方案上,可能尝试对Wikipedia进行不同的查询,但是我无法找到一种通过这些Wikipedia API提取所需信息的方法。