矩阵 TFIDF 的降维

WOW*_*WOW 4 java classification matrix tf-idf

我计算了 TFIdf(词频,逆文档频率),我已经看到在这一步之后,有必要使用 LSI ,卡方检验等方法来减少我的矩阵的维数...,

我不知道如何在 Java 中实现卡方检验以降低矩阵 TFIDF 的维数,如果有一些库可以做到这一点,或者在教程中他们解释了我如何做到这一点,请告诉我

小智 5

将 gensims 库用于 LSA、LDA。它实际上可以对任何大型数据集执行 LSA。它不会一次将整个语料库加载到内存中,而是进行延迟读取。