标签: counting

使用hector计算cassandra行中总列数的更快方法

我想使用Hector客户端计算Cassandra行的总列数.目前我正在做这个CountQuery,但对我来说似乎很慢.对于一排,只有6万列,它需要将近2秒.我的代码目前看起来像这样:

QueryResult<Integer> qr = HFactory.createCountQuery(ksp, se, se).
    setColumnFamily("ColumnFamily1").
    setKey("RowKey").
    setRange(null, null, 1000000000).execute();
Run Code Online (Sandbox Code Playgroud)

PS:我必须将范围设置为如此高的数字,否则它只计算我最大值.我在该范围内提供的数字.

我有什么想法可以改善这个吗?

java performance counting cassandra hector

6
推荐指数
1
解决办法
2350
查看次数

计算csv中特定单词出现的Python算法

我刚开始学习python.我很好奇计算CSV文件中特定单词出现的有效方法是什么,而不是简单地使用for循环逐行和读取.

更具体地说,假设我有一个CSV文件包含两列,"名称"和"等级",有数百万条记录.

如何计算"等级"下"A"的出现?

Python代码示例将不胜感激!

python csv algorithm counting

6
推荐指数
1
解决办法
1万
查看次数

有效计算真假的方法

这可能是一个微不足道的问题,但我想更多地了解其他更聪明有效的解决方法.

我有一个项目列表,每个项目都有一个a值为二进制的属性.

  • 如果列表中的每个项目都有a == 0,那么我设置一个单独的变量b = 0.
  • 如果列表中的每个项目都有a == 1,那么我就设置了b = 1.
  • 如果存在的混合物a == 0,并a == 1在列表中,然后我设置 b = 2.

我可以使用一个集合来跟踪a值的类型,这样如果在遍历列表后集合中有两个项目,那么我可以设置b = 2,而如果集合中只有一个项目我只是检索项目(0或1)并使用它来设置b.

有更好的方法吗?

python algorithm counting python-2.7

6
推荐指数
3
解决办法
767
查看次数

将唯一ID分配给python中的列表列表,其中重复项获得相同的id

我有一个列表列表(最多可包含90k个元素)

[[1,2,3], [1,2,4], [1,2,3], [1,2,4], [1,2,5]]
Run Code Online (Sandbox Code Playgroud)

我想为每个元素分配一个id,其中id是唯一的,除非项目是重复的.所以对于上面的列表,我需要这个:

[0,1,0,1,2]
Run Code Online (Sandbox Code Playgroud)

这样做最有效的方法是什么?

python list counting

6
推荐指数
1
解决办法
1823
查看次数

GCC新的原子整数运算的替代品

GCC的近期支持原子操作(如描述这里)是伟大的,是90%的我们所需要的.不幸的是,我们的一些产品仍然需要在Windows上运行,所以我们也需要Windows的原子整数运算.

在过去,我们为所有平台都有自定义汇编语言实现,但是我想将所有*nix平台移到GCC支持的操作上,我想到了这个想法也许还有更标准的方法来实现这个目标.在Windows上现在也是......

是否有官方认可的方法在Windows上执行此操作(除了使用汇编语言自己实现它们)?

c operations atomic ref counting

5
推荐指数
1
解决办法
3319
查看次数

差异布隆过滤器和 FM 草图

布隆过滤器和散列草图(也是 FM 草图)之间有什么区别,它们的用途是什么?

hash set counting duplicates bloom-filter

5
推荐指数
1
解决办法
1931
查看次数

计算三角形内的格点

我有一个大三角形的点,我们称之为 a、b、c。(a =(x,y)等)。

现在我想统计这个三角形围成的区域内有多少个积分点,所以我首先看一下皮克定理。我考虑的第二种方法是生成一个以三角形的最大值、最小值为界的点列表,然后检查每个点是否位于三角形内部。

我使用重心坐标方法来做到这一点。它有效,但是我的三角形相当大,我的程序基本上是跨点的蛮力。我如何改进这个算法?

我的代码可以在这里找到:https ://bpaste.net/show/58433b6e389c

algorithm collision-detection counting

5
推荐指数
1
解决办法
1466
查看次数

按组计算非 NA 值的数量

例如,我有这个数据框(df):

Color    X1      X2    X3    X4
Red      1       1     0     2
Blue     0       NA    4     1 
Red      3       4     3     1
Green    2       2     1     0
Run Code Online (Sandbox Code Playgroud)

我想创建一个函数,NA按组(即按“颜色”)计算“X2”中非s的数量。我想在名为 newdf 的新数据框中显示此函数的输出。这是我想要的输出:

Color    X2     
Red      2      
Blue     NA    
Green    1
Run Code Online (Sandbox Code Playgroud)

到目前为止,我有这个代码:

Question <- function(Color){
  Result <-
    rowsum((df[c("X2")] > 0) + 0, df[["X2"]], na.rm = TRUE) 
  rowSums(Result)[[Color]]
  }
  Question("Red") 
Run Code Online (Sandbox Code Playgroud)

这个函数给出的输出只是Question("Red")= 2我想在新数据框(newdf)中获得所有颜色的结果。有人能帮忙吗?谢谢!

r counting na

5
推荐指数
2
解决办法
2200
查看次数

检查特定字符是否在字符串中

我需要查找并计算字符串中可以找到多少个字符.我已将字符分为chars1 [a:m]和chars2 [n:z],并有两个计数器.

输出应为0/14,但它是0/1.我认为它只检查是否包含一个且只有一个项目,然后退出循环.是这样的吗?

这是代码.

string_1 = "aaabbbbhaijjjm"

def error_printer(s):
    chars1 = "abcdefghijklm"
    chars2 = "nopqrstuvwxyz"
    counter1 = 0
    counter2 = 0

    if ((c in s) for c in chars1):
        counter1 += 1
    elif ((c in s) for c in chars2):
        counter2 += 1
    print(str(counter2) + "/" + str(counter1))

error_printer(string_1)
Run Code Online (Sandbox Code Playgroud)

python string counting

5
推荐指数
2
解决办法
5496
查看次数

对 Pandas value_counts 进行分箱

我有一个由 df.column.value_counts().sort_index() 生成的 Pandas 系列。

| N Months | Count |
|------|------|
|    0 |   15 |
|    1 |    9 |
|    2 |   78 |
|    3 |  151 |
|    4 |  412 |
|    5 |  181 |
|    6 |  543 |
|    7 |  175 |
|    8 |  409 |
|    9 |  594 |
|   10 |  137 |
|   11 |  202 |
|   12 |  170 |
|   13 | …
Run Code Online (Sandbox Code Playgroud)

python counting bin pandas

5
推荐指数
1
解决办法
1万
查看次数