标签: bucket

Elasticsearch - 计算嵌套聚合相对于父存储桶的百分比

更新的问题

在我的查询中，我先聚合日期，然后聚合传感器名称。是否可以根据父存储桶的嵌套聚合和文档总数（或任何其他聚合）计算比率？查询示例：

{
  "size": 0,
  "aggs": {
    "over_time": {
      "aggs": {
        "by_date": {
          "date_histogram": {
            "field": "date",
            "interval": "1d",
            "min_doc_count": 0
          },
          "aggs": {
            "measure_count": {
              "cardinality": {
                "field": "date"
              }
            },
            "all_count": {
              "value_count": {
                "field": "name"
              }
            },
            "by_name": {
              "terms": {
                "field": "name",
                "size": 0
              },
              "aggs": {
                "count_by_name": {
                  "value_count": {
                    "field": "name"
                  }
                },
                "my ratio": count_by_name / all_count * 100 <-- How to do that?
              }
            }
          }
        }
      }
    }
  }
}

Run Code Online (Sandbox Code Playgroud)

我想要一个自定义指标，它可以给出count_by_name …

aggregation bucket elasticsearch date-histogram

sta*_*max

2015 11-06

5
推荐指数

1
解决办法

4002
查看次数

通用信元速率算法相对于漏桶算法的优势

我正在寻找一种用于限制 REST HTTP 服务器传入请求速率的算法。我已经完成了“漏桶”和“通用信元速率算法：虚拟调度”

据我了解，漏桶有以下局限性：-

如果队列/存储桶为空并且请求在时钟滴答之前到来（当我们实际处理请求时），则请求必须等待时间直到时钟滴答。
网络域中的变长数据包

我浏览过这个实现“通用信元速率算法：虚拟调度”的博客。

有人可以向我解释以下内容吗：-

GCRA 如何解决#1 中提到的 Leaky Bucket 的限制？
在我的用例中，如果我将时钟刻度设置为低（可能每纳秒检查一次），漏桶问题是否应该得到缓解？

algorithm rate-limiting bucket

tuk*_*tuk

2016 10-02

5
推荐指数

1
解决办法

882
查看次数

将持久化的 keras 模型写入 s3

我在 keras 中运行了一个 lstm 模型并将其保存为 json 对象。我想将此 json 对象直接写入 s3 存储桶。Boto3 教程实际上并没有涵盖这一点，它们只展示了如何将文件写入 s3。我真的需要能够将 keras 模型直接从 python（在内存中）存储到 s3 中。有任何想法吗？

amazon-s3 bucket keras

Jan*_*nnk

2017 12-22

5
推荐指数

2
解决办法

6373
查看次数

在 Apache Spark 的 `bucketBy` 中，如何为每个存储桶生成 1 个文件，而不是每个分区每个存储桶生成 1 个文件？

我正在尝试在相当大的数据集上使用 Spark 的bucketBy功能。

dataframe.write()
    .format("parquet")
    .bucketBy(500, bucketColumn1, bucketColumn2)
    .mode(SaveMode.Overwrite)
    .option("path", "s3://my-bucket")
    .saveAsTable("my_table");

Run Code Online (Sandbox Code Playgroud)

问题是我的 Spark 集群有大约 500 个分区/任务/执行器（不确定术语），所以我最终得到的文件如下所示：

part-00001-{UUID}_00001.c000.snappy.parquet
part-00001-{UUID}_00002.c000.snappy.parquet
...
part-00001-{UUID}_00500.c000.snappy.parquet

part-00002-{UUID}_00001.c000.snappy.parquet
part-00002-{UUID}_00002.c000.snappy.parquet
...
part-00002-{UUID}_00500.c000.snappy.parquet

part-00500-{UUID}_00001.c000.snappy.parquet
part-00500-{UUID}_00002.c000.snappy.parquet
...
part-00500-{UUID}_00500.c000.snappy.parquet

Run Code Online (Sandbox Code Playgroud)

这是 500x500=250000 个分桶镶木地板文件！FileOutputCommitter将其提交到 S3需要很长时间。

有没有一种方法可以像 Hive 一样为每个存储桶生成一个文件？或者有更好的方法来处理这个问题吗？截至目前，我似乎必须在降低集群的并行性（减少编写器数量）或减少镶木地板文件的并行性（减少存储桶数量）之间做出选择。

谢谢

hive amazon-s3 bucket apache-spark parquet

coz*_*zos

lucky-day

5
推荐指数

1
解决办法

4926
查看次数

如何使用 gsutil 命令在谷歌存储（存储桶）中创建一个空文件夹？

我们如何使用 gsutil 命令创建文件夹。我在气流中使用 Bashoperator，需要使用 gsutil Bash 命令，存储桶已创建，我想在存储桶内创建一个文件夹。我已经尝试过以下命令，但它对我不起作用。

$ gsutil cp <new_folder> gs://<bucketname>/

Run Code Online (Sandbox Code Playgroud)

我收到错误 - CommandException：没有匹配的 URL：new_folder

bucket google-cloud-storage gsutil google-cloud-platform airflow

Bha*_*ora

2022 05-07

5
推荐指数

1
解决办法

1万
查看次数

GCP 存储桶访问日志

如果你把一个存储桶设置为静态网站，有没有办法追踪谁访问过它？例如 IP 地址、查看时间等...

我查看了 stackdriver 日志，但它只显示事件，例如创建存储桶、上传文件等...

bucket google-cloud-platform

Shr*_*yle

lucky-day

5
推荐指数

1
解决办法

1万
查看次数

Google Play 存储桶未显示在云存储中

我正在尝试将一些 Google Play 报告加载到我的 BigQuery 项目中，但在 Could Storage 中查找存储桶时遇到问题。

我已在 Google Play 控制台中复制了 Cloud Storage URL（gs://pubsite_prod_rev_... 格式）
当我打开 Cloud Storage 时，此存储桶不在可用存储桶列表中。
但是，如果我在从存储桶到数据集的数据传输中输入此 URL，它将起作用（尽管并非所有报告都会加载到我的数据集:( ）
如果我在从存储桶到存储桶的数据传输中输入此 URL，它将不起作用，因为传输缺乏对源存储桶的某些权限。但我无法更改此 Google Play 存储桶的权限，因为我在存储桶列表中看不到它。

所以我的问题是 - 这个存储桶没有显示在我的存储中的原因是什么以及如何访问它？

谢谢！

storage bucket google-play google-bigquery

Mar*_*ria

lucky-day

5
推荐指数

0
解决办法

433
查看次数

为特定区域创建S3存储桶

如果我按如下方式创建S3存储桶:

    AmazonS3Config amazonS3Config = new AmazonS3Config
    {
        ServiceURL = "s3-eu-west-1.amazonaws.com"
    };
    AmazonS3Client amazonS3Client = new AmazonS3Client(myAccessKeyId, 
        mySecretAccessKey, amazonS3Config)

    PutBucketRequest request = new PutBucketRequest
    {
        BucketName = bucket.Name,
        BucketRegion = S3Region.EU
    };
    amazonS3Client.PutBucket(request);

Run Code Online (Sandbox Code Playgroud)

如您所见,我已明确指定在欧盟地区创建我的存储桶,
但当我访问AWS explorer时,我可以看到我的存储桶在所有区域都可用.

如果我的存储桶总是在所有区域中复制,那么指定存储区域有什么意义呢？
有人可以澄清一下吗？

谢谢!

c# amazon-s3 region bucket

use*_*869

2012 08-03

4
推荐指数

1
解决办法

3500
查看次数

Amazon S3存储桶策略将putObject权限拒绝给除一个用户之外的所有用户

我的目标是允许一个用户将对象放入s3存储桶.我想过应用一个存储桶策略.我知道你不能拒绝PutObjects给所有用户,然后通过允许所谓的用户覆盖它.我原本希望使用条件"ArnNotEquals"从拒绝策略声明中排除单个用户:

"Statement": [
    {
        "Sid": "allow only OneUser to put objects",
        "Effect": "Deny",
        "Principal": {
            "AWS": "*"
        },
        "Action": "s3:PutObject",
        "Resource": "arn:aws:s3:::myBucket/*",
        "Condition": {
            "ArnNotEquals": {
                "aws:SourceArn": "arn:aws:iam::123456789012:user/OneUser"
            }
        }
    }
]

Run Code Online (Sandbox Code Playgroud)

但是,这会导致将PutObjects拒绝给所有用户.我是在正确的轨道上吗？我可以为此制定一个桶策略吗？或者我是否需要查看其他地方,例如ACL(访问控制列表)？

permissions amazon-s3 bucket

Dev*_*ine

lucky-day

4
推荐指数

1
解决办法

2664
查看次数