ron*_*975 5 string algorithm levenshtein-distance
我正在为电视节目和其他媒体(游戏,电影等)编写刮刀,并不是所有来源的格式都与某个节目相同.例如,一个源可能表示带有破折号的字幕,其他分号.我目前正在使用Levenshtein距离将刮下的数据与从电视节目文件名中提取的数据进行比较,但我想知道该算法是否是针对短句长度而设计的.有没有更适合这种需求的算法?
在比较/距离测量之前,您应该对标题进行规范化(标准化)。
\n\n规范化应该包括以下内容:
\n\n您可以在单词对之间使用编辑距离(不要将其用于整个句子),但要实现一些滑动窗口,因为其中一个表示中可能会缺少某些单词(例如“The”)。
\n 归档时间: |
|
查看次数: |
93 次 |
最近记录: |