标签: aggregation

总结同一SQL表上的两个条件

给定一个SQL表

Transactions
  ID            INT
  COMPANY_ID    INT
  STATUS        INT
Run Code Online (Sandbox Code Playgroud)

where STATUS IN (0,1)表示一个免费交易,并STATUS IN (2,3)指示一个可计费交易,简单(我希望)ANSI SQL语句将告诉我,可COMPANY_ID计费交易的数量,不可计费交易及其比率?

如果不是特定的陈述,正确方向的概念刺激是好的.我的第一次尝试是使用WHERE两个状态组的子句自行加入表格,但我仍然坚持如何获得一个代表每个不同计数的列,以便我可以计算比率.

这在概念上与汇总数据非常相似,但我不确定如何将这个问题扩展到这个问题.

sql aggregation

4
推荐指数
1
解决办法
262
查看次数

使用Maven 2构建子项目时丢失工件

我有一个父项目,有5个孩子,彼此之间也有依赖关系.我<parent>在子<module>节点pom.xml中使用了inheritence 元素,在父节点中使用了元素的聚合.

我的父母pom看起来像这样:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

<modelVersion>4.0.0</modelVersion>
<groupId>com.domain</groupId>
<artifactId>Parent</artifactId>
<packaging>pom</packaging>
<version>RELEASE</version>
<name>Parent</name>

<modules>
    <module>../Child1</module>
    <module>../Child2</module>
    <module>../Child3</module>
    <module>../Child4</module>
    <module>../Child5</module>
</modules>

<dependencyManagement>
    <dependencies>
        <dependency>
            <groupId>com.domain</groupId>
            <artifactId>Child1</artifactId>
            <version>RELEASE</version>
        </dependency>
        <dependency>
            <groupId>com.domain</groupId>
            <artifactId>Child2</artifactId>
            <version>RELEASE</version>
        </dependency>
    </dependencies>
</dependencyManagement>
</project>
Run Code Online (Sandbox Code Playgroud)

Child3 pom看起来像这样:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

<modelVersion>4.0.0</modelVersion>
<groupId>com.domain</groupId>
<artifactId>Child3</artifactId>
<name>Child3</name>
<packaging>war</packaging>

<parent>
    <artifactId>Parent</artifactId>
    <groupId>com.domain</groupId>
    <version>RELEASE</version>
</parent>

<dependencies>
    <dependency>
        <groupId>com.domain</groupId>
        <artifactId>Child1</artifactId>
    </dependency>
    <dependency>
        <groupId>com.domain</groupId>
        <artifactId>Child2</artifactId>
    </dependency>
</dependencies>
</project>
Run Code Online (Sandbox Code Playgroud)

当我mvn install在Parent或Child1上运行时,一切正常.但是当我在Child3上运行它时,我得到以下错误:

[INFO] Failed to resolve artifact.
Missing:
----------
1) …
Run Code Online (Sandbox Code Playgroud)

inheritance maven-2 aggregation

4
推荐指数
1
解决办法
4834
查看次数

浮点数的SQL Server总和应该给出1的值,否则过滤器说

我有一个字段的数据类型设置为浮动的表.给定记录集的值应该给出1的总和,并且select中的字段返回1但是,HAVING子句另有说明.

以下是我在表格中的确切值,正如您所看到的,此示例执行相同的操作.为什么总和超过1?我搞不清楚了!

with example as (
    SELECT 'Code' as Code, cast(0.462 as float) as perc
    UNION ALL
    SELECT 'Code' as Code, cast(0.116 as float) as perc
    UNION ALL
    SELECT 'Code' as Code, cast(0.181 as float) as perc
    UNION ALL
    SELECT 'Code' as Code, cast(0.053 as float) as perc
    UNION ALL
    SELECT 'Code' as Code, cast(0.188 as float) as perc
)

SELECT 
    Code,
    SUM(perc)
FROM
    example
GROUP BY Code
HAVING SUM(perc) > 1
Run Code Online (Sandbox Code Playgroud)

sql t-sql aggregation

4
推荐指数
1
解决办法
4946
查看次数

MYSQL计数?

我有一个像以下的mysql表:

id, visitorid, pageid
Run Code Online (Sandbox Code Playgroud)

当访问者访问网站时,它会将访问者ID和页面ID存储为一行.

我试图提取访问网站的访问者数量正好X次.(图表).所以有多少人只访问一页,有多少人访问2页...

到目前为止我有:

SELECT COUNT(visid),visid FROM vislog GROUP BY visid ORDER BY COUNT(visid) DESC
Run Code Online (Sandbox Code Playgroud)

但我不知道如何计算计数的下一部分.

是否可以作为mysql查询?

编辑:我已经添加了我的答案.

php mysql sql aggregation

4
推荐指数
3
解决办法
6023
查看次数

带箭头和不带箭头的UML聚合

我一直认为UML聚合被定义为路径开头的黑色(填充)菱形,而没有箭头指向结尾:

|--------|        |--------|
| :MyA   |<>------| :MyB   |
|--------|        |--------|
Run Code Online (Sandbox Code Playgroud)

今天我遇到了一个符号<>----->(右端有一个明确的箭头).所以我在UML 2.4规范中查找了它,并且实际上找到了两个版本的引用.

我最喜欢的参考:Craig Larman的"UML and Patterns"只提到没有箭头的第一个版本.在UML规范中,我发现了关于可导航目的的通知,但我不确定这是否相关,是否有什么区别?

有人可以更彻底地解释这个并给出每个版本使用的例子吗?

uml aggregation

4
推荐指数
1
解决办法
3250
查看次数

使用ggplot2创建具有散点图平均值的网格和颜色单元格

给定具有N个点的数值数据集{(x_i,y_i,z_i)},可以通过为每个i = 1,...,N绘制点P_i =(x_i,y_i)并用每个点着色来创建散点图.强度取决于z_i的值.

library(ggplot2)
N = 1000;
dfA = data.frame(runif(N), runif(N), runif(N))
dfB = data.frame(runif(N), runif(N), runif(N))
names(dfA) = c("x", "y", "z")
names(dfB) = c("x", "y", "z")

PlotA <- ggplot(data = dfA, aes(x = x, y = y)) + geom_point(aes(colour = z));
PlotB <- ggplot(data = dfB, aes(x = x, y = y)) + geom_point(aes(colour = z));
Run Code Online (Sandbox Code Playgroud)

假设我已经创建了这些散点图.我想为每个数据集做的是用一个网格(矩形,六边形,三角形,......无关紧要)划分平面,并为网格中的每个单元格着色所有点的平均强度细胞.

另外,假设我已经为两个不同的数据集dfA和dfB创建了两个这样的图PlotA和PlotB(如上所述).设c_i ^ k为曲线k的第i个单元格.我想创建第三个图,使得每个i的c_i ^ 3 = c_i ^ 1*c_i ^ 2.

谢谢.

编辑:最小的例子

r data-visualization aggregation ggplot2

4
推荐指数
1
解决办法
1424
查看次数

Elasticsearch:聚合"现有"字段

我对ElasticSearch聚合很新.我希望能够计算使用非空字段检索的文档数.

这是我用来计算有多少文档没有name字段的方法.

{
  "size": 3,
  "query": {
    "query_string": {
      "query": "martin"
    }
  },
  "aggs": {
    "results_without_mb_id": {
      "missing": {
        "field": "name"
      }
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

它有效,但我想做的恰恰相反.有existing汇总吗?

aggregation elasticsearch

4
推荐指数
2
解决办法
6336
查看次数

数据表-在多个列上应用相同的功能以创建新的数据表列

我正在使用data.table包。我有一个数据表,代表用户在网站上的操作。假设每个用户都可以访问一个网站,并对其执行多项操作。我的原始数据表是动作(每行都是一个动作),我想将此信息汇总到一个新的数据表中,并按用户访问次数进行分组(每次访问都有唯一的ID)。同一访问的操作共有一些字段,例如,用户名,用户状态,访问次数等。每次访问中至少有一个操作包含此信息(不一定是所有操作) )。我想为每次访问(=具有相同访问ID的一组操作)检索此字段的值,并将其设置为“访问新数据”表中的访问。例如,如果我有以下原始数据表:

VisitID     ActionNum    UserName   UserStatus    VisitNum   ActionType
aaaaaaa        1           John        Active        5           x
aaaaaaa        2                       Active                    y
aaaaaaa        3           John                      5           z
bbbbbbb        1                      NonActive                  w
bbbbbbb        2           Dan                       7           t
Run Code Online (Sandbox Code Playgroud)

我想要一个访问数据表,如下所示:

VisitID  UserName   UserStatus   VisitNum
aaaaaaa   John       Active        5
bbbbbbb   Dan        NonActive     7
Run Code Online (Sandbox Code Playgroud)

我创建了一个对数据表的子集(仅访问行)和一个字段起作用的函数,并且该函数应应用于多个字段(UserName,UserStatus,VisitNum)。

getGeneralField<- function(visitDT,field){
  vec = visitDT[,get(field)]
  return (unique(vec[vec != ""])[1])
}
Run Code Online (Sandbox Code Playgroud)

问题是,当by = VisitID时,每次在.SD上应用此功能的尝试都会导致与我计划的有所不同……最好的方法是什么?我使用!=“”以避免空白单元格。

r user-defined-functions aggregation lapply

4
推荐指数
1
解决办法
2977
查看次数

Pandas:计算两列的不同组合并添加到Same Dataframe

需要帮助将两列的唯一组合添加到pandas中的同一数据框中.我想要那个"nos"专栏.

Input:
id  acct_nos name
1   1a       one
1   1a       two
2   2b       three
3   3a       four
3   3b       five
3   3c       six
3   3d       seven
Run Code Online (Sandbox Code Playgroud)

这是我想要的输出:

Output:
id  acct_nos    nos name
1   1a          1   one 
1   1a          1   two
2   2b          1   three
3   3a          4   four
3   3b          4   five
3   3c          4   six
3   3d          4   seven
Run Code Online (Sandbox Code Playgroud)

在上面的示例中,Id = 1只有1个acct_nos-1a,因此nos必须具有值1.Id = 3只有4个acct_nos-3a到3d,因此nos必须具有值4.

不知道如何把它放在Python Pandas中.我能搞清楚的SQL查询.

谢谢

python size count aggregation pandas

4
推荐指数
2
解决办法
2395
查看次数

如何计算Spark中12个月内每个客户滑动1个月的订单总和

我是Scala的新手.目前我正在尝试在每月下滑的12个月期间汇总火花中的订单数据.

下面是我的数据的简单示例,我尝试对其进行格式化,以便您可以轻松地对其进行测试

import spark.implicits._
import org.apache.spark.sql._
import org.apache.spark.sql.functions._


var sample = Seq(("C1","01/01/2016", 20), ("C1","02/01/2016", 5), 
 ("C1","03/01/2016", 2),  ("C1","04/01/2016", 3), ("C1","05/01/2017", 5),
 ("C1","08/01/2017", 5), ("C1","01/02/2017", 10), ("C1","01/02/2017", 10),  
 ("C1","01/03/2017", 10)).toDF("id","order_date", "orders")

sample = sample.withColumn("order_date",
to_date(unix_timestamp($"order_date", "dd/MM/yyyy").cast("timestamp")))

sample.show 
Run Code Online (Sandbox Code Playgroud)
 +---+----------+------+
 | id|order_date|orders|
 +---+----------+------+
 | C1|2016-01-01|    20|
 | C1|2016-01-02|     5|
 | C1|2016-01-03|     2|
 | C1|2016-01-04|     3|
 | C1|2017-01-05|     5|
 | C1|2017-01-08|     5|
 | C1|2017-02-01|    10|
 | C1|2017-02-01|    10|
 | C1|2017-03-01|    10|
 +---+----------+------+
Run Code Online (Sandbox Code Playgroud)

强加给我的结果如下.

id      period_start    period_end  rolling
C1      2015-01-01      2016-01-01  30
C1      2016-01-01      2017-01-01 …
Run Code Online (Sandbox Code Playgroud)

scala aggregation apache-spark apache-spark-sql

4
推荐指数
1
解决办法
899
查看次数