Tal*_*eff 14 algorithm dictionary data-structures
我正在寻找特定的建议或对算法和/或数据结构的引用,以便将单词列表编码成有效地变成拼写检查字典的单词.该方案的目标将导致原始单词列表与编码形式的非常高的压缩比.我对编码字典的唯一输出要求是,可以以相对有效的方式针对原始单词列表测试任何提出的目标字的存在性.例如,应用程序可能希望针对100,000字词的字典检查10,000个单词.事实并非如此 要求编码的字典表单能够[轻松]转换回原始单词列表形式 - 二进制是/否结果是针对结果字典测试的每个单词所需的全部内容.
我假设编码方案,以提高压缩比,将利用给定语言中的已知结构,如单数和复数形式,所有格形式,收缩等.我特别感兴趣主要编码英语单词,但要明确,该方案必须能够编码任何和所有ASCII文本"单词".
我想到的特定应用程序可以假设是非易失性存储空间非常宝贵的嵌入式设备,而字典则是随机可访问的只读存储区.
编辑:总结字典的要求:
小智 5
Bloom Filter(http://en.wikipedia.org/wiki/Bloom_filter和http://www.coolsnap.net/kevin/?p=13)是一种数据结构,用于以非常紧凑的方式存储字典单词一些拼写检查.但是,存在误报的风险.