小编I G*_*ERS的帖子

假设我们以半结构化格式给出数据作为树.例如,树可以形成为有效的XML文档或有效的JSON文档.你能想象它是一个口齿不清状S-表达或(G)的代数数据类型在Haskell或者Ocaml.

我们在树结构中给出了大量的"文档".我们的目标是聚类相似的文档.通过聚类,我们指的是将文档划分为j个组的方法,使得每个元素中的元素看起来彼此相似.

我确信有些论文描述了方法,但由于我在AI/Clustering/MachineLearning领域并不为人所知,我想问一下谁在寻找什么以及在哪里挖掘.

我目前的做法是这样的:

我想将每个文档转换为为K-means聚类设置的N维向量.
为此,我递归地遍历文档树,并为每个级别计算一个向量.如果我在树顶点,我会重复所有的subvertices,然后将它们的向量相加.此外,每当我再次出现时,都会应用一个功率因数,因此它越往往越不重要.文档最终向量是树的根.
根据树叶上的数据,我应用一个将数据转换为向量的函数.

但肯定有更好的方法.我的方法的一个弱点是它只会相似 - 聚类具有顶部结构的树木彼此非常相似.如果相似性存在,但发生在树的更远处,那么我的方法可能不会很好地工作.

我想也有全文搜索的解决方案,但我确实想利用数据中存在的半结构.