从Google Analytics我有一个(长)关键字列表,人们在搜索引擎中使用这些关键字来查找我的网站.我想找到'核心关键词',假设的例子:
java online training
learning java
scala training
training for java
online training java
learn scala programming
Run Code Online (Sandbox Code Playgroud)
理想的结果是:'java','在线培训','培训','scala'和'学习'.
困难似乎是检测完整的短语,忽略常用词(for)和处理变化(学习 - 学习).
是否有可以执行该操作的库(最好是JVM)?或者我可以自己实现一个合适的算法吗?