比较两个英文字符串的相似之处

Jar*_*d D 5 algorithm comparison text nlp compare

所以这是我的问题.我有两段文字,我需要看看它们是否相似.不是字符串指标而是含义.以下两段是相关的,但我需要了解它们是否涵盖"相同"主题.任何帮助或解决这个问题的方向将不胜感激.

化石燃料是通过自然过程形成的燃料,例如埋藏的死亡生物的厌氧分解.生物体及其产生的化石燃料的年龄通常为数百万年,有时超过6.5亿年.含有高百分比碳的化石燃料包括煤,石油和天然气.化石燃料的范围从挥发性物质的低碳:氢气比例如甲烷,液态石油到非挥发性物质,由几乎纯碳组成,如无烟煤.甲烷可以在碳氢化合物领域中找到,单独存在,与油相关,或以甲烷包合物的形式存在.人们普遍认为,它们是通过数百万年来暴露于地壳中的热量和压力而由死亡植物的化石残骸形成的.这种生物成因理论最初由Georg Agricola于1556年引入,后来由Mikhail Lomonosov在18世纪引入.

第二:

化石燃料重整是从诸如天然气的化石燃料生产氢或其他有用产物的方法.这在称为重整器的处理装置中实现,该装置使高温蒸汽与化石燃料反应.蒸汽甲烷重整器广泛用于工业中制氢.还有兴趣开发基于类似技术的更小的单元,以生产氢作为燃料电池的原料.用于供应燃料电池的小型蒸汽重整单元目前是研究和开发的主题,通常涉及甲醇或天然气的重整,但也考虑其他燃料,例如丙烷,汽油,汽油,柴油和乙醇.

Ben*_*son 5

这是一个很高的要求.如果我是你,我会开始阅读自然语言处理.NLP是一个相当大的领域 - 我建议专门研究Wikipedia Text Analytics文章的"进程"部分中提到的内容.

我认为如果你使用信息检索,命名实体识别情感分析,你应该顺利完成.


tem*_*def 3

总的来说,我认为这仍然是一个悬而未决的问题。自然语言处理仍然是一个新兴领域,虽然我们可以很好地做一些事情,但进行这种分类和分类仍然非常困难。

我不是 NLP 方面的专家,但您可能想查看这些讨论情感分析和作者身份检测的讲座幻灯片。您可能用于进行您建议的文本比较的技术与您用于上述分析的技术相关,您可能会发现这是一个很好的起点。

希望这可以帮助!