And*_*ndy 5 postgresql full-text-search group-by
我正在寻找一种超级简单且非常实用的方法,仅使用 PostgreSQL 数据库来对问题进行 k 均值聚类。
虽然我完全意识到,如果我的假设不成立,这种方法可能不会产生有意义的结果,但这可能是对我的数据进行分类的一次很好的首次尝试。
想象一个小型在线论坛,用户可以自由地提出有关他们想要的任何主题的简短问题,但无需对它们进行分类,并且如果新问题与他们之前感兴趣的主题相匹配,则需要通知其他用户订阅了。
我的计划是首先使用将每个传入的问题分解为词位,to_tsvector但老实说,我对之后要做什么有点迷失。
即使假设我已经正确识别了问题可能匹配的k个类别,我将如何决定问题是否应属于一个(或多个)类别?