R中的agrep max.distance参数

Tom*_*m A 3 string grep r string-matching agrep

我需要一些帮助来解决R中agrep包的具体参数.

就成本而言,所有,插入,删除和取代均具有"取代的最大数量/分数"整数或分数输入参数.

我已阅读有关它的文档,但我仍然无法弄清楚一些细节:

  • "cost = 1"和"all = 1"有什么区别?
  • 如何解释小数,例如"cost = 0.1","inserts = 0.9","all = 0.25"等?
  • 我理解Levenshtein距离的基础知识,但它如何应用于成本或所有参数?

对不起,如果这是相当基本的,但就像我说的,我读过的文档有点令人困惑.

提前致谢

Bro*_*ieG 6

不是100%肯定,但这是我的理解:

  • max.distance,cost并且all是可以互换的,如果你不指定一个costs参数(这是一个参数); 如果你这样做,那么cost将根据costs你指定的插入/删除/替换的加权(按照)成本进行all限制,而将限制这些操作的原始计数
  • 分数表示pattern您希望允许作为插入/删除/替换的参数中的字符数的一小部分(即10个字符模式上的0.1将允许1个更改).如果你指定costs,那么它是模式*max(costs)max.distance{insertions/deletions/substitutions}中字符数的分数,尽管可能的分数是字符数*对应的costs值.

我同意文档不尽可能完整.我通过构建简单的测试示例并弄乱它们来发现上述内容.您应该能够为自己做同样的确认,特别是最后一部分(即是否costs影响分数测量max.distance{insertions/deletions/substitutions}),我还没有测试过.