小编Rob*_*aus的帖子

Bloom过滤器用法

我正在努力理解布隆过滤器的用处.我得到了它的基础逻辑,空间压缩,快速查找,误报等.我只是不能将这个概念置于现实生活中,因为它是有益的.一个常见的应用是在Web缓存中使用bloom过滤器.我们使用bloom过滤器来确定给定的URL是否在缓存中.为什么我们不直接访问缓存来确定?如果我们得到肯定的话,我们仍然需要去缓存来检索网页(可能不存在),但是如果没有,我们可以使用缓存得到相同的答案(这可能是为了快速查找而优化的)无论如何?).

algorithm bloom-filter data-structures

17
推荐指数
2
解决办法
7019
查看次数

字符串是随机生成的还是合理的英文单词?

我有一个包含一些字符串的文本语料库.在这些字符串中,有些是英文单词,有些是随机的,如VmsVKmGMY6eQE4eMI,每个字符串中的字符数没有限制.

有没有办法测试一个字符串是否是英文单词?我正在寻找一种能够完成这项工作的算法.这是Java,我宁愿不实现额外的字典.

java text data-mining text-mining

6
推荐指数
2
解决办法
1056
查看次数

在O(n log n)时间内找到特殊点k的算法

为算法提供n log n时间下限,以检查一组点是否具有特殊点k.

k定义为:

对于A组点,如果对于A中的每个点m,在A中存在点q使得k位于线段mq的中间,这样ak不必属于A.

例如,对于一组四个点(1,0),(0,1),(1,1),(0,0),该集合具有特殊点k =(0.5,0.5).

当他们问我这个时,我完全被扑克所面对,没有想到我的想法.我想它需要一些强大的几何背景.

algorithm geometry

5
推荐指数
1
解决办法
454
查看次数

暴力语言检测

我需要一种算法(任何编程语言)来测试活力,使用爬山算法来破解加密挑战的密码.该算法应该测试随机解密(没有空格)是英文文本(也为不完整的单词提供点数)或者只是随机字符序列的可能性.

我尝试了几种我开发的算法,但它们并不是那么好.

我的研究:

一个神秘的M4加密项目(http://www.bytereef.org/m4_project.html)也使用了我想要使用的Sinkov统计数据.

我发现的唯一的东西是«quebra -pedra»的文档,这是一个Java框架,包括我正在搜​​索的Sinkov对数权重分析.

http://www.google.com/m?client=ms-android-samsung&source=android-home#q=Quebra-pedra+framework+java

但我还没有找到下载框架的位置.此外,我还没有找到Sinkov测试的任何实现或描述.

任何提示我都会很高兴.谢谢.

java algorithm nlp cryptography

5
推荐指数
1
解决办法
454
查看次数

从一组范围中查找最常见的数字 -

问题如下: -

给你N个不同大象的生命时间,表示为一对整数.

恩.[5,10] [6,15] [2,7]意味着,一只大象从5年级到10年级生活.第二只大象从6年级到15年级,依此类推.

您可以假设大象最多只能活M年.(不是问题的一部分,但我们可能需要它来表示算法的复杂性.)

根据这些数据,找出最大数量的大象居住的年份.任意解决关系.

我已经尝试了几种方法,但没有任何实质性的东西可以打败天真的解决方案的复杂性.天真的解决方案是: -

1. Maintain an array(call it ctr).
2. For every set you encounter, 
    increment all values of ctr in that range.
3. Once you have traversed all sets, 
    find the index with the highest value in ctr.
Run Code Online (Sandbox Code Playgroud)

很容易看出复杂性将是O(N*M).

有人能提供更好的解决方案吗?

另一个问题是:是否存在可以在O(1)时间内更改值范围的数据结构?在数组中,要修改k个元素,您显然需要O(k)时间.还有什么更好的?

algorithm computational-geometry

3
推荐指数
1
解决办法
1036
查看次数

如何从JS dev控制台访问Chrome扩展中编写的函数?

我希望能够通过Chrome中的JS控制台调用我在Chrome扩展程序中编写的函数,以便我可以轻松地测试它们,并查看它们的输出随页面更改而变化的方式.

但似乎我写的函数不适用于chrome JS控制台.我真的不太了解JS,或者Chrome扩展模型,但是我需要以某种方式将扩展源注入到我正在使用扩展名的页面主体中?

google-chrome-extension google-chrome-devtools

2
推荐指数
1
解决办法
532
查看次数

无论其上下文如何,NLTK的NgramModel总是给出一个单词的相同概率

我正在使用来自nltk的NgramModel来计算在句子中找到某个单词的概率.我的问题是每个单词每次都给出完全相同的概率,无论上下文如何!这是一些演示我的问题的示例代码.

from nltk.corpus import brown
from nltk.probability import LidstoneProbDist, WittenBellProbDist
from nltk.model import NgramModel

estimator = lambda fdist, bins: LidstoneProbDist(fdist, 0.2)

lm = NgramModel(3, brown.words(categories='news'), estimator=estimator)
>>> print lm.prob("word", ["This is a context which generates a word"])
0.00493261081006
>>> print lm.prob("word", ["This is a context of a word"])
0.00493261081006
>>> print lm.prob("word", ["This word"])
0.00493261081006
>>> print lm.prob("word", ["word"])
0.00493261081006
>>> print lm.prob("word", ["adnga"])
0.00493261081006
Run Code Online (Sandbox Code Playgroud)

python nlp nltk n-gram

1
推荐指数
1
解决办法
2810
查看次数