小编Mat*_*lde的帖子

9P已经过时了吗？

我对研究9P FS感兴趣,目前正在阅读这些实现中可用的源代码:http://9p.cat-v.org/implementations

9P已经过时了吗？你在某些应用程序中使用它吗？

(我也发现了这一点,在9P和NFS之间进行了一些性能测试:http://graverobbers.blogspot.com/2007/08/v9fs-performance-versus-nfs.html)

filesystems plan-9

Mat*_*lde

2014 02-16

17
推荐指数

3
解决办法

6847
查看次数

如何计算字母频率相似度？

鉴于此数据(两种语言的相对字母频率):

spanish => 'e' => 13.72, 'a' => 11.72, 'o' => 8.44, 's' => 7.20, 'n' => 6.83,
english => 'e' => 12.60, 't' => 9.37, 'a' => 8.34, 'o' => 7.70, 'n' => 6.80,

Run Code Online (Sandbox Code Playgroud)

然后计算字符串"这是一个测试"的字母频率给了我:

"t"=>21.43, "s"=>14.29, "i"=>7.14, "r"=>7.14, "y"=>7.14, "'"=>7.14, "h"=>7.14, "e"=>7.14, "l"=>7.14

Run Code Online (Sandbox Code Playgroud)

那么,将给定的字符串字母频率与语言匹配(并尝试检测语言)的好方法是什么？我已经看过(并已经测试过)使用levenshtein距离的一些例子,它似乎工作正常,直到你添加更多的语言.

"this is a test" gives (shortest distance:) [:english, 13] ...
"esto es una prueba" gives (shortest distance:) [:spanish, 13] ...

Run Code Online (Sandbox Code Playgroud)

text nlp letter levenshtein-distance

Mat*_*lde

lucky-day

8
推荐指数

1
解决办法

1910
查看次数

如何检查ElasticSearch上的重复数据？

当存储一些文档时,它应该存储不存在而忽略其余文件(应该在应用程序级别完成,也许检查文档的id是否已经存在,等等？)

search deduplication elasticsearch

Mat*_*lde

2013 01-13

5
推荐指数

1
解决办法

4448
查看次数

标签统计

deduplication ×1

elasticsearch ×1

filesystems ×1

letter ×1

levenshtein-distance ×1

nlp ×1

plan-9 ×1

search ×1

text ×1

9P已经过时了吗？

如何计算字母频率相似度？

如何检查ElasticSearch上的重复数据？

标签 统计

小编Mat_lde的帖子

标签统计