机器学习克服错字错误

roh*_*hit 1 text classification machine-learning

我有一份药物名称列表(crocin,seroflo,oxitab等).清单很长.现在假设我需要找到一个特定的药物是否存在未在列表中,但也有可能是错字errors.supposing我打算找藏花素在列表中,但我不是键入crosin.I想要的机器学习算法来克服我的这个印刷错误以及像crocin和crosin这样的小差异,它应该在匹配时返回

Mat*_*yra 5

我不认为你需要机器学习一个简单的编辑距离算法应该这样做.

https://en.wikipedia.org/wiki/Edit_distance

  • 我不得不投反对票。查看以下资源 - http://eprints.whiterose.ac.uk/884/1/hodgevj10.pdf http://research.microsoft.com/pubs/68884/spell-correct-acl02.pdf http: //research.ihost.com/and2007/cd/Proceedings_files/p79.pdf http://acl.ldc.upenn.edu/acl2002/MAIN/pdfs/Main336.pdf (2认同)
  • 还有更多资源可用于使用 ML 进行拼写校正! (2认同)