小编Are*_*rel的帖子

在Apache Pig中,根据单个列选择DISTINCT行

假设我有一个如下表所示的表,它可能包含或不包含给定字段的重复项:

ID     URL
---    ------------------
001    http://example.com/adam
002    http://example.com/beth
002    http://example.com/beth?extra=blah
003    http://example.com/charlie

Run Code Online (Sandbox Code Playgroud)

我想写一个Pig脚本,根据单个字段的值只查找DISTINCT行.例如,过滤上面的表ID应返回如下内容:

ID     URL
---    ------------------
001    http://example.com/adam
002    http://example.com/beth
003    http://example.com/charlie

Run Code Online (Sandbox Code Playgroud)

Pig GROUP BY操作符返回一个按ID分组的元组,如果我知道如何获得每个包的第一个元组(也许是一个单独的问题),它将起作用.

Pig DISTINCT运算符适用于整行,因此在这种情况下,所有四行都将被视为唯一,这不是我想要的.

出于我的目的,我不关心002返回哪个具有ID的行.

group-by distinct apache-pig

Are*_*rel

lucky-day

6
推荐指数

1
解决办法

6966
查看次数

如何在Splunk中有效地采样很长时间？

我想在很长一段时间内(例如,几个月或几年)运行Splunk查询,但我正在搜索足够的数据,我只能搜索数小时或数天的数据.

但是,对于我想在Splunk中回答的问题,我会对统一或统计上无偏见的数据样本感到满意.换句话说,我希望查询返回N个事件在过去一个月内展开,而不是任何N个连续事件.

我考虑的一种方法是仅搜索事件,date_minute=0以便快速过滤1/60事件,这有助于但不是非常灵活.

有没有更好的方法在Splunk中有效地采样事件？

performance time search splunk random-sample

Are*_*rel

lucky-day

5
推荐指数

1
解决办法

2079
查看次数

在 AWS CloudFormation 中，布尔值和布尔值字符串可以互换吗？

我对 AWS CloudFormation 如何处理布尔值和布尔值字符串感到困惑。

例如，就 CloudFormation 而言，'true'and true（或'false'and false）在逻辑上是等价的吗？我在他们的快速入门模板中看到了这两种情况的示例，这让我认为它们是（尽管我还没有找到这方面的文档）。

例如，在他们的模板中，quickstart-compliance-common/templates/vpc-product.template，他们定义了一个“String”类型的变量pSupportsNatGateway，（尽管它的默认值是文字值，true）：

Parameters:
  ...
  pSupportsNatGateway:
    Description: Specifies whether this region supports NAT Gateway (this value is
      determined by the main stack if it is invoked from there)
    Type: String
    Default: true

Run Code Online (Sandbox Code Playgroud)

然后，在模板后面的条件中，将该参数（可能是字符串）与文字值进行比较true。

Conditions:
  ...
  cSupportsNatGateway:
    !Equals
    - true
    - !Ref pSupportsNatGateway

Run Code Online (Sandbox Code Playgroud)

我的问题是，CloudFormation 如何比较文字值和这些值的字符串？AWS 文档中哪里定义了这个？

amazon-web-services aws-cloudformation

Are*_*rel

lucky-day

2
推荐指数

1
解决办法

6088
查看次数

标签统计

amazon-web-services ×1

apache-pig ×1

aws-cloudformation ×1

distinct ×1

group-by ×1

performance ×1

random-sample ×1

search ×1

splunk ×1

time ×1

在Apache Pig中,根据单个列选择DISTINCT行

如何在Splunk中有效地采样很长时间？

在 AWS CloudFormation 中，布尔值和布尔值字符串可以互换吗？

标签 统计

小编Are_rel的帖子

标签统计