NLP:有效比较和识别文本之间趋势的方法

aba*_*haw 2 nlp text-mining

是否有算法或方法可以评估文本项目之间的共同趋势/主题?

例如,假设有四个数据点(文本条目):

  • "我今天发现学校压力很大"
  • "物理测试非常简单."
  • "我的物理测试根本没有挑战性"
  • "每个人都提前离开,因为物理测试是直截了当的,我们很早就完成了."

基于这四个条目,第一个是异常值,与其余条目无关,但其他三个提到"物理测试"是如何容易的(更一般地,其他三个表达围绕"物理测试"的积极情绪).

有没有方法来提取相关句子之间的共同点?这些句子完全是开放式的,并不仅限于表达对某个对象的情绪 - 他们可能在谈论任何事情.

我知道这是一个相当广泛的问题,但我想我会问它,看看人们是否知道过去现有的解决方案或人们解决这个问题的方法.

Was*_*mad 6

其中一个可能的解决方案是 - 首先生成句子表示(Sent2Vec),然后比较这些表示.

有许多方法可以生成嵌入英语句子的句子.其中一种流行的方法是跳过向量.只需将句子转换为矢量,然后使用余弦相似度来比较句子.

您还可以使用这些句子嵌入来训练神经网络来完成目标任务.