标签: bucket

Elasticsearch - 计算嵌套聚合相对于父存储桶的百分比

更新的问题

在我的查询中,我先聚合日期,然后聚合传感器名称。是否可以根据父存储桶的嵌套聚合和文档总数(或任何其他聚合)计算比率?查询示例:

{
  "size": 0,
  "aggs": {
    "over_time": {
      "aggs": {
        "by_date": {
          "date_histogram": {
            "field": "date",
            "interval": "1d",
            "min_doc_count": 0
          },
          "aggs": {
            "measure_count": {
              "cardinality": {
                "field": "date"
              }
            },
            "all_count": {
              "value_count": {
                "field": "name"
              }
            },
            "by_name": {
              "terms": {
                "field": "name",
                "size": 0
              },
              "aggs": {
                "count_by_name": {
                  "value_count": {
                    "field": "name"
                  }
                },
                "my ratio": count_by_name / all_count * 100 <-- How to do that?
              }
            }
          }
        }
      }
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

我想要一个自定义指标,它可以给出count_by_name …

aggregation bucket elasticsearch date-histogram

5
推荐指数
1
解决办法
4002
查看次数

通用信元速率算法相对于漏桶算法的优势

我正在寻找一种用于限制 REST HTTP 服务器传入请求速率的算法。我已经完成了“漏桶”和“通用信元速率算法:虚拟调度”

据我了解,漏桶有以下局限性:-

  1. 如果队列/存储桶为空并且请求在时钟滴答之前到来(当我们实际处理请求时),则请求必须等待时间直到时钟滴答。
  2. 网络域中的变长数据包

我浏览过这个实现“通用信元速率算法:虚拟调度”的博客。

有人可以向我解释以下内容吗:-

  1. GCRA 如何解决#1 中提到的 Leaky Bucket 的限制?
  2. 在我的用例中,如果我将时钟刻度设置为低(可能每纳秒检查一次),漏桶问题是否应该得到缓解?

algorithm rate-limiting bucket

5
推荐指数
1
解决办法
882
查看次数

将持久化的 keras 模型写入 s3

我在 keras 中运行了一个 lstm 模型并将其保存为 json 对象。我想将此 json 对象直接写入 s3 存储桶。Boto3 教程实际上并没有涵盖这一点,它们只展示了如何将文件写入 s3。我真的需要能够将 keras 模型直接从 python(在内存中)存储到 s3 中。有任何想法吗?

amazon-s3 bucket keras

5
推荐指数
2
解决办法
6373
查看次数

在 Apache Spark 的 `bucketBy` 中,如何为每个存储桶生成 1 个文件,而不是每个分区每个存储桶生成 1 个文件?

我正在尝试在相当大的数据集上使用 Spark 的bucketBy功能。

dataframe.write()
    .format("parquet")
    .bucketBy(500, bucketColumn1, bucketColumn2)
    .mode(SaveMode.Overwrite)
    .option("path", "s3://my-bucket")
    .saveAsTable("my_table");
Run Code Online (Sandbox Code Playgroud)

问题是我的 Spark 集群有大约 500 个分区/任务/执行器(不确定术语),所以我最终得到的文件如下所示:

part-00001-{UUID}_00001.c000.snappy.parquet
part-00001-{UUID}_00002.c000.snappy.parquet
...
part-00001-{UUID}_00500.c000.snappy.parquet

part-00002-{UUID}_00001.c000.snappy.parquet
part-00002-{UUID}_00002.c000.snappy.parquet
...
part-00002-{UUID}_00500.c000.snappy.parquet

part-00500-{UUID}_00001.c000.snappy.parquet
part-00500-{UUID}_00002.c000.snappy.parquet
...
part-00500-{UUID}_00500.c000.snappy.parquet
Run Code Online (Sandbox Code Playgroud)

这是 500x500=250000 个分桶镶木地板文件!FileOutputCommitter将其提交到 S3需要很长时间。

有没有一种方法可以像 Hive 一样为每个存储桶生成一个文件?或者有更好的方法来处理这个问题吗?截至目前,我似乎必须在降低集群的并行性(减少编写器数量)或减少镶木地板文件的并行性(减少存储桶数量)之间做出选择。

谢谢

hive amazon-s3 bucket apache-spark parquet

5
推荐指数
1
解决办法
4926
查看次数

如何使用 gsutil 命令在谷歌存储(存储桶)中创建一个空文件夹?

我们如何使用 gsutil 命令创建文件夹。我在气流中使用 Bashoperator,需要使用 gsutil Bash 命令,存储桶已创建,我想在存储桶内创建一个文件夹。我已经尝试过以下命令,但它对我不起作用。

$ gsutil cp <new_folder> gs://<bucketname>/  
Run Code Online (Sandbox Code Playgroud)

我收到错误 - CommandException:没有匹配的 URL:new_folder

bucket google-cloud-storage gsutil google-cloud-platform airflow

5
推荐指数
1
解决办法
1万
查看次数

GCP 存储桶访问日志

如果你把一个存储桶设置为静态网站,有没有办法追踪谁访问过它?例如 IP 地址、查看时间等...

我查看了 stackdriver 日志,但它只显示事件,例如创建存储桶、上传文件等...

bucket google-cloud-platform

5
推荐指数
1
解决办法
1万
查看次数

Google Play 存储桶未显示在云存储中

我正在尝试将一些 Google Play 报告加载到我的 BigQuery 项目中,但在 Could Storage 中查找存储桶时遇到问题。

  1. 我已在 Google Play 控制台中复制了 Cloud Storage URL(gs://pubsite_prod_rev_... 格式)
  2. 当我打开 Cloud Storage 时,此存储桶不在可用存储桶列表中。
  3. 但是,如果我在从存储桶到数据集的数据传输中输入此 URL,它将起作用(尽管并非所有报告都会加载到我的数据集:( )
  4. 如果我在从存储桶到存储桶的数据传输中输入此 URL,它将不起作用,因为传输缺乏对源存储桶的某些权限。但我无法更改此 Google Play 存储桶的权限,因为我在存储桶列表中看不到它。

所以我的问题是 - 这个存储桶没有显示在我的存储中的原因是什么以及如何访问它?

谢谢!

storage bucket google-play google-bigquery

5
推荐指数
0
解决办法
433
查看次数

为特定区域创建S3存储桶

如果我按如下方式创建S3存储桶:

    AmazonS3Config amazonS3Config = new AmazonS3Config
    {
        ServiceURL = "s3-eu-west-1.amazonaws.com"
    };
    AmazonS3Client amazonS3Client = new AmazonS3Client(myAccessKeyId, 
        mySecretAccessKey, amazonS3Config)

    PutBucketRequest request = new PutBucketRequest
    {
        BucketName = bucket.Name,
        BucketRegion = S3Region.EU
    };
    amazonS3Client.PutBucket(request); 
Run Code Online (Sandbox Code Playgroud)

如您所见,我已明确指定在欧盟地区创建我的存储桶,
但当我访问AWS explorer时,我可以看到我的存储桶在所有区域都可用.

如果我的存储桶总是在所有区域中复制,那么指定存储区域有什么意义呢?
有人可以澄清一下吗?

谢谢!

c# amazon-s3 region bucket

4
推荐指数
1
解决办法
3500
查看次数

Amazon S3存储桶策略将putObject权限拒绝给除一个用户之外的所有用户

我的目标是允许一个用户将对象放入s3存储桶.我想过应用一个存储桶策略.我知道你不能拒绝PutObjects给所有用户,然后通过允许所谓的用户覆盖它.我原本希望使用条件"ArnNotEquals"从拒绝策略声明中排除单个用户:

"Statement": [
    {
        "Sid": "allow only OneUser to put objects",
        "Effect": "Deny",
        "Principal": {
            "AWS": "*"
        },
        "Action": "s3:PutObject",
        "Resource": "arn:aws:s3:::myBucket/*",
        "Condition": {
            "ArnNotEquals": {
                "aws:SourceArn": "arn:aws:iam::123456789012:user/OneUser"
            }
        }
    }
] 
Run Code Online (Sandbox Code Playgroud)

但是,这会导致将PutObjects拒绝给所有用户.我是在正确的轨道上吗?我可以为此制定一个桶策略吗?或者我是否需要查看其他地方,例如ACL(访问控制列表)?

permissions amazon-s3 bucket

4
推荐指数
1
解决办法
2664
查看次数

AWS S3中的子存储桶

我从AWS S3开始,已经创建了存储桶,但是我不知道如何管理它。例如,将存储桶命名为:testing,然后创建一个子存储桶:company1,company2。

在每个子存储区中,我都会将文档放在上面,例如doc1.pdf,doc2.pdf等。

但是,我找不到有关子文件夹或子桶的任何文档。

任何帮助将不胜感激。

bucket amazon-web-services subdirectory

4
推荐指数
1
解决办法
4323
查看次数