小编135*_*498的帖子

在Python中集群~100,000个短字符串

我希望通过像q-gram距离或简单的"包距离"或者Python中的Levenshtein距离来聚集~100,000个短字符串.我打算填写距离矩阵(100,000选择2比较),然后用pyCluster进行分层聚类.但是我甚至在开始之前遇到了一些记忆问题.例如,距离矩阵太大而不适合numpy.

aa = numpy.zeros((100000, 100000))
ValueError: array is too big.
Run Code Online (Sandbox Code Playgroud)

这看起来像是一件合理的事吗?或者我注定要在这项任务中记忆问题?谢谢你的帮助.

python numpy cluster-analysis levenshtein-distance

14
推荐指数
1
解决办法
4455
查看次数

如何在相似度量和差异度量(距离)之间进行转换?

是否有一种通用的方法来转换相似度量和距离度量?

考虑一个相似性度量,例如两个字符串共有的2克数.

2-grams('beta', 'delta') = 1
2-grams('apple', 'dappled') = 4
Run Code Online (Sandbox Code Playgroud)

如果我需要将其提供给期望测量差异的优化算法,例如Levenshtein距离,该怎么办?

这只是一个例子......我正在寻找一个通用的解决方案,如果存在的话.比如如何从Levenshtein距离到相似度量?

我感谢您提供的任何指导.

metrics string-comparison levenshtein-distance

8
推荐指数
4
解决办法
1万
查看次数