我最近在研究一种使用各种单词缩写的数据集.例如,
wtrbtl = water bottle
bwlingbl = bowling ball
bsktball = basketball
Run Code Online (Sandbox Code Playgroud)
在所使用的惯例方面似乎没有任何一致性,即有时他们有时不使用元音.我正在尝试构建一个类似于上面的映射对象的缩写及其相应的单词而没有完整的语料库或全面的术语列表(即可以引入未明确知道的缩写).为简单起见,它说它仅限于您在健身房中找到的东西,但它可能是任何东西.
基本上,如果你只看一下例子的左侧,那么在将每个缩写与相应的全文标签相关联时,哪种模型可以做与我们大脑相同的处理.
我的想法已停止在第一封和最后一封信中找到并在字典中找到它们.然后根据上下文分配先验概率.但是由于有大量语素没有标记表示单词结尾,我看不出它是如何分裂它们的.
更新:
我还想到结合一些字符串度量算法(如匹配评级算法)来确定一组相关术语,然后计算集合中每个单词与目标缩写之间的Levenshtein距离.但是,当涉及不在主词典中的单词的缩写时,我仍处于黑暗中.基本上,推断单词构造 - 可能Naive Bayes模型可能有所帮助,但我担心使用上述算法导致的任何精度误差都将使任何模型训练过程无效.
任何帮助都表示赞赏,因为我真的被困在这个.