sho*_*hoi 5 information-retrieval fuzzy-search plagiarism-detection
我需要进行相当复杂的短语匹配。我的文件中有大量文本,每个文件超过 1000 字。
我正在搜索的短语(searchphrase)是这样的:
投资并不意味着: i.仅因以下原因而产生的金钱债权: 1. 一方国民或企业向另一方境内企业销售商品或服务的商业合同,或 2. 与某一方有关的信贷提供商业交易,例如除先前涵盖的贷款或债权之外的贸易融资。
我想知道该短语是否出现在我拥有的每个文件中。但是,这些文件不会包含与该短语完全相同的内容。相反,文件(文本文件)将是一个大文档,其中包含如下段落:
但投资并不意味着对纯粹从一缔约方领土内的国民或法人向另一缔约方领土内的国民或法人销售商品或服务而设计的商业交易中获得的金钱的索取权,为贸易融资等商业交易融资的信贷和期限不超过三年的其他信贷,以及授予国家或国有企业的信贷。
正如您所看到的,搜索短语的实际含义与文本文件中的这一段非常相似。关键词也有相当大的重叠。因此,我应该得到一场比赛。
我应该尝试使用什么样的算法来编码?任何地方都可以使用预编码模块来完成这项工作吗?