Kik*_*ohs 35
知识图是一个流行语.它是为实现结果而组合在一起的模型和技术的总和.旅程的第一站从自然语言处理,本体和文本挖掘开始.这是一个广泛的人工智能领域,请到这里进行该领域的研究调查.
在构建自己的模型之前,我建议您使用专用工具箱(如gensim)尝试不同的标准算法.您将了解tf-idf,LDA,文档特征向量等.
我假设您想要处理文本数据,如果您想使用其他图像进行图像搜索则不同.音频部分也是如此.
构建模型只是第一步,Google知识图中最困难的部分是每天实际扩展到数十亿个请求......
一个好的处理管道可以在Apache Spark上"轻松"构建,"当前的Hadoop".它提供了一个弹性分布式数据存储区,如果您想扩展,这是必需的.
如果你想把你的数据保存为图形,如图论(如pagerank),对于实时查询,我建议你使用Bulbs,这是一个框架,"就像图形的ORM,但不是SQL,你使用图形遍历语言Gremlin查询数据库".例如,您可以将后端从Neo4j切换到OpenRDF(如果您使用本体,则很有用).
对于图形分析,您可以使用Spark,GraphX模块或GraphLab.
希望能帮助到你.