我正在寻找一种有效算法的建议,以便在大量文本中查找所有匹配项.要搜索的术语将包含在列表中,并且可以有1000多种可能性.搜索项可以是1个或更多个单词.
显然,我可以通过文本进行多次传递,比较每个搜索词.效率不高.
我想过订购搜索词并组合常见的子段.这样我就可以快速消除大量术语.语言是C++,我可以使用boost.
搜索术语的示例可以是财富500强公司名称的列表.
想法?
string algorithm search boost
algorithm ×1
boost ×1
search ×1
string ×1