比较文本文档含义的最佳方法？

Question

我正在尝试找到使用AI和机器学习方法比较两个文本文档的最佳方法.我已经使用了TF-IDF-Cosine相似度和其他相似性度量,但是这比较了单词(或n-gram)级别的文档.

我正在寻找一种方法,可以让我比较文件的含义.最好的方法是什么？

Answer 1

您应该开始阅读有关word2vec模型的信息。使用gensim，获取google 的预训练模型。要对文档进行矢量化处理，请使用Doc2vec（）函数。获取所有文档的向量后，使用一些距离度量（例如余弦距离或欧式距离）进行比较。

Answer 2

这非常困难.实际上没有"含义"的计算定义.您应该深入研究文本挖掘,摘要和库,如gensim,spacy或pattern.

在我看来,那里有更容易使用的库,即.更高的投资回报率(ROI),即如果您是新手,您可能希望查看他们想要从自然语言结构化数据中提取的聊天机器人的工具.这与"意义"最相似.实现这一点的一个自由软件工具的例子是rasa自然语言理解.

这些工具的缺点是它们有些工作,但仅限于它们经过培训并准备工作的领域.特别是它们并不旨在比较您想要的文档.

我正在尝试找到使用AI比较两个文本文档的最佳方法

您必须提出更精确的任务,并从那里找出哪种技术最适合您的用例.是否要对预定义类别的文档进行分类？你在两个文件之间计算一些相似性吗？给定输入文档,您是否希望在数据库中找到大多数类似的文档.您想要在文档中提取重要主题或关键字吗？你想总结一下这份文件吗？它是抽象摘要还是关键短语提取？

特别是,没有软件允许从任何文档中提取某些语义指纹.根据最终目标,实现它的方式可能完全不同.

你必须缩小你想要达到的确切目标; 从那里,你将能够提出另一个问题(或改进这个问题)来准确描述你的目标.

文本理解是AI-Complete.所以,只是对电脑说"告诉我一些关于这两个文件的东西"是行不通的.

像其他人所说的那样,word2vec和其他单词嵌入是在NLP中实现许多目标的工具,但它只是结束的意思.您必须定义要设计的系统的输入和输出,以便能够开始实施.

您可能想要挖掘另外两个Stack Overflow社区: