我正在尝试从列表中获取所有类似的发音。
我试图用余弦相似度来获取它们,但这没有实现我的目的。
from sklearn.metrics.pairwise import cosine_similarity
dataList = ['two','fourth','forth','dessert','to','desert']
cosine_similarity(dataList)
Run Code Online (Sandbox Code Playgroud)
我知道这不是正确的方法,我似乎无法得到如下结果:
result = ['xx', 'xx', 'yy', 'yy', 'zz', 'zz']
Run Code Online (Sandbox Code Playgroud)
他们的意思是听起来相似的单词