标签: bucket

可以将数据多次插入到分桶配置单元表中

我有一个带桶的蜂巢表。它有4个桶。

CREATE TABLE user(user_id BIGINT, firstname STRING, lastname STRING)
COMMENT 'A bucketed copy of user_info'
CLUSTERED BY(user_id) INTO 4 BUCKETS;
Run Code Online (Sandbox Code Playgroud)

最初,我使用以下查询将一些记录插入到该表中。

set hive.enforce.bucketing = true;
insert into user
select * from second_user;
Run Code Online (Sandbox Code Playgroud)

此操作后在 HDFS 中,我看到在此表目录下创建了 4 个文件。

我再次需要将另一组数据插入到用户表中。所以我运行了下面的查询。

set hive.enforce.bucketing = true;
insert into user
select * from third_user;
Run Code Online (Sandbox Code Playgroud)

现在另外 4 个文件被打包在用户文件夹 dir 下。现在它总共有8个文件。

将这种多次插入到分桶表中是否可以?它会影响表的分桶吗?

hadoop hive bucket

5
推荐指数
1
解决办法
3173
查看次数

如何检查 AWS S3 存储桶是否存在?

简单的问题在这里?...

如何使用boto检查AWS 存储桶是否存在?...最好通过提供路径?...

这是我想采取的方法:

def bucket_exists(self, bucket_name):
    connection = boto.s3.connection.S3Connection('<aws access key>', '<aws secret key>')
    buckets = connection.get_all_buckets()
    for bucket in buckets:
        bucket_name = bucket.name
        # Bucket existence logic here
        # submit boto request
        ie:. exists = boto.get_bucket(bucket_name, validate=True)
        if exists:
            return True
        else:
            return False
Run Code Online (Sandbox Code Playgroud)

在上面的代码中,我很想知道这个 AWS 账户拥有的存储桶中是否存在一个存储桶......

有没有更好的方法来确定存储桶是否存在?我将如何实施更好的方法?

谢谢

python amazon-s3 bucket boto amazon-web-services

5
推荐指数
1
解决办法
8379
查看次数

是否可以在弹簧靴中连接到两个不同的沙发底座桶

我正在尝试使用弹簧靴连接到 couchbase 中的两个不同存储桶。但是在单个 Spring Boot 应用程序中,数据库配置仅采用单个存储桶名称。

是否可以在 spring-boot 中连接到多个沙发底桶?

bucket couchbase spring-boot

5
推荐指数
1
解决办法
4259
查看次数

通用信元速率算法相对于漏桶算法的优势

我正在寻找一种用于限制 REST HTTP 服务器传入请求速率的算法。我已经完成了“漏桶”和“通用信元速率算法:虚拟调度”

据我了解,漏桶有以下局限性:-

  1. 如果队列/存储桶为空并且请求在时钟滴答之前到来(当我们实际处理请求时),则请求必须等待时间直到时钟滴答。
  2. 网络域中的变长数据包

我浏览过这个实现“通用信元速率算法:虚拟调度”的博客。

有人可以向我解释以下内容吗:-

  1. GCRA 如何解决#1 中提到的 Leaky Bucket 的限制?
  2. 在我的用例中,如果我将时钟刻度设置为低(可能每纳秒检查一次),漏桶问题是否应该得到缓解?

algorithm rate-limiting bucket

5
推荐指数
1
解决办法
882
查看次数

什么是桶或双桶数据结构?

我正在阅读有关最短路径算法实现的一些内容,并且已经反复尝试使用Double-Bucket数据结构实现Dijkstra算法是一个很好的实现.

但是我似乎无法找到双桶实现的实际含义,维基百科上的文章有点模糊.从我所看到的它类似于哈希表/地图.我之前从未在数据结构或算法类中听说过这个.

我正在阅读的特定论文是这样的,

Cherkassky,BV,Goldberg,AV,&Radzik,T.(1996).最短路径算法:理论和实验评估.数学规划,73(2),129-174.

algorithm dijkstra bucket data-structures

5
推荐指数
1
解决办法
3565
查看次数

S3:调用GetObject操作时发生错误(AccessDenied):访问被拒绝

在使用命令配置AWSCLI之后aws configure。我正在尝试使用以下命令将文件从S3存储桶下载到本地文件夹测试

aws s3 sync s3://sourceBucket  ./test --delete
Run Code Online (Sandbox Code Playgroud)

但它抛出以下错误消息

download failed: s3://sourceBucket/jobs/Test/1/slider-test-0.0.1-SNAPSHOT.war to test/jobs/Test/1/slider-test-0.0.1-SNAPSHOT.war An error occurred (AccessDenied) when calling the GetObject operation: Access Denied
download failed: s3://sourceBucket/jobs/Test/2/slider-test-0.0.1-SNAPSHOT.war to test/jobs/Test/2/slider-test-0.0.1-SNAPSHOT.war An error occurred (AccessDenied) when calling the GetObject operation: Access Denied
Run Code Online (Sandbox Code Playgroud)

sourceBucket具有以下权限

sourceBucket权限图片-单击此处

当我使用此命令检查sourceBucket中的对象列表时

aws s3api list-objects --bucket sourceBucket --query 'Contents[].{Key: Key, Size: Size}'
Run Code Online (Sandbox Code Playgroud)

以下是它的输出

[
    {
        "Key": "jobs/Test/1/slider-test-0.0.1-SNAPSHOT.war", 
        "Size": 2546325
    },
    {
        "Key": "jobs/Test/2/slider-test-0.0.1-SNAPSHOT.war", 
        "Size": 3571598
    }
]
Run Code Online (Sandbox Code Playgroud)

可能有人会让我知道如何解决这个问题,我需要将所有对象从s3 sourceBucket下载到本地文件夹测试。

谢谢。

amazon-s3 amazon-ec2 bucket amazon-web-services aws-cli

5
推荐指数
1
解决办法
9603
查看次数

gsutil 命令删除前一天的旧文件

我在谷歌云存储中有一个存储桶。我在存储桶中有一个 tmp 文件夹。每天在此目录中创建数以千计的文件。我想每天晚上删除超过 1 天的文件。我在 gsutil 上找不到这个工作的论据。我不得不使用一个经典而简单的 shell 脚本来做到这一点。但是文件删除速度非常慢。

我在文件夹中积累了 650K 个文件。必须删除其中的 540K。但是我自己的 shell 脚本工作了 1 天,只能删除 34K 文件。

gsutil 生命周期功能无法完全满足我的要求。他正在清理整个桶。我只想定期删除某个文件夹底部的文件..同时我想更快地进行删除。

我愿意接受您的建议和帮助。我可以使用单个 gsutil 命令执行此操作吗?或不同的方法?

我为测试创建的简单脚本(我准备临时删除批量文件。)

    ## step 1 - I pull the files together with the date format and save them to the file list1.txt.
gsutil -m ls -la gs://mygooglecloudstorage/tmp/ | awk '{print $2,$3}' > /tmp/gsutil-tmp-files/list1.txt


## step 2 - I filter the information saved in the file list1.txt. Based on the current date, I save the old dated files …
Run Code Online (Sandbox Code Playgroud)

bucket google-cloud-storage gsutil

5
推荐指数
1
解决办法
6484
查看次数

当用户尝试使用AWS进行注册并创建新帐户/相册时,我们会收到错误消息。请参阅下面的终端消息

[AWS s3未定义0.006s 0重试] headObject({Bucket:'mypicturebank',Key:'testing'})创建相册时出错:TypeError [ERR_INVALID_ARG_TYPE]:“ key”参数必须是字符串类型之一, TypedArray或DataView。接收类型未定义

amazon-s3 bucket amazon-web-services

5
推荐指数
1
解决办法
416
查看次数

GCP 存储桶访问日志

如果你把一个存储桶设置为静态网站,有没有办法追踪谁访问过它?例如 IP 地址、查看时间等...

我查看了 stackdriver 日志,但它只显示事件,例如创建存储桶、上传文件等...

bucket google-cloud-platform

5
推荐指数
1
解决办法
1万
查看次数

云存储新手——出了点问题

我刚刚创建了一个 Google Cloud 帐户,并尝试将一些数据从我的语言环境机器加载到存储桶中,以便以后在 ML 项目中使用。我正在按照教程中提供的非常简单的说明来启动并通过控制台运行存储桶,并且在创建存储桶时没有问题,但是在尝试上传(任何)文件时,我收到错误消息“无法上传一个文件。出了点问题。再试一次。”

当然,这不会那么困难——作为新帐户用户,我需要做些什么来准备我的帐户,然后才能让我将文件上传到云吗?

在此先感谢您的帮助。

Cloud Console 中显示的错误

bucket google-cloud-storage google-cloud-console

5
推荐指数
1
解决办法
729
查看次数