小编Mak*_*oni的帖子

在 AWS Redshift 中取消数组的嵌套

我有一个带有列的表,其中包含如下列表:

id
[1,2,3,10]
[1]
[2,3,4,9]
Run Code Online (Sandbox Code Playgroud)

我想要的结果是一个包含未列出值的表,如下所示:

id2
1
2
3
10
1
2
3
4
9
Run Code Online (Sandbox Code Playgroud)

我尝试了在网上找到的不同解决方案、aws 文档SO 解决方案博客文章,但没有任何运气,因为我在列中有一个列表,而不是 json 对象。任何帮助表示赞赏!

sql amazon-redshift unnest

8
推荐指数
1
解决办法
2万
查看次数

计算比当前数字低的数字

想象一下,我有一个数字列表(即 data.table/data.frame 中的数字列)。

1
5
5
10
11
12
Run Code Online (Sandbox Code Playgroud)

对于列表中的每个数字,想要计算有多少个唯一数字低于该特定数字 + 5。

大写的解释,第一个数字=1,搜索范围是1+5=6,所以三个数字在范围内,小于或等于:c(1,5,5),然后count unique是2。这都是假设我们有附加条件,该数字不仅必须小于 current_number + 5,而且其在列表中的索引必须 >= current_number 的索引。

在这种情况下,结果将是:

2
2
2
3
2
1
Run Code Online (Sandbox Code Playgroud)

注意:data.framedata.table 中是否有针对庞大数据集的快速解决方案?我的数据集相当大,有 10+M 行。

r rollover count rollapply data.table

6
推荐指数
2
解决办法
170
查看次数

AWS API网关+SQS+Lambda+从Lambda返回API的响应

我想使用 API Gateway 向 SQS 发送消息,然后需要触发 Lambda。在 Lambda 中完成计算后,我需要将结果传递回 API Gateway。换句话说,是这样的:

Get request --> Gateway API --> SQS --> Lambda --> (back to the same SQS?) -->  Gateway API
Run Code Online (Sandbox Code Playgroud)

我已经设置了所有必要的权限,这意味着我可以调用网关 API 并将消息发送到 SQS,然后 SQS 将其发送到 Lambda(我可以在 Cloudwatch 中看到 Lambda 收到了消息)。但是,我无法将 Lambda 响应返回到网关 API...

有人对此有一些建议/教程/博客文章吗?我观看了各种 YouTube 视频并搜索了 SO 上的帖子,但没有找到解决我的问题的方法。

python amazon-sqs amazon-web-services aws-lambda aws-api-gateway

5
推荐指数
1
解决办法
3815
查看次数

在Matlab的条形图中的传奇

如何在Matlab中绘制条形图中的图例?这是代码:

Y = [1.5056
0.72983
3.4530
3.2900
1.4839
12.9 ];
n = length(Y);
h = bar(Y);
colormap(summer(n));
grid on

l = cell(1,6);
l{1}='L'; l{2}='B'; l{3}='R'; l{4}='P'; l{5}='h'; l{6}='Ri';    
legend(h,l);
Run Code Online (Sandbox Code Playgroud)

这会出错:警告:忽略额外的图例条目.我尝试过在SO和网络上找到的解决方案,但我无法解决这个问题.

matlab plot legend

4
推荐指数
1
解决办法
6万
查看次数

从 r 中的 s3 一个一个读取文件

我想读取 s3 目录中给出的 r 中的 csv 文件。每个文件大小超过6GB,每个文件都需要在r中进一步计算。假设我在 s3 文件夹中有 10 个文件,我需要在for loop. 首先,我尝试了这个,它在我知道 csv 文件的名称的情况下工作:

library(aws.s3)
Sys.setenv("AWS_ACCESS_KEY_ID" = "xyy",
           "AWS_SECRET_ACCESS_KEY" = "yyx")

data <- 
  s3read_using(FUN=read.csv, object="my_folder/file.csv",
               sep = ",",stringsAsFactors = F, header=T)
Run Code Online (Sandbox Code Playgroud)

但是,如何在 s3read_using 函数中没有明确给出名称的情况下访问多个文件。这是必要的,因为我partition()在 Spark 中使用,它将原始数据集划分为具有一些通用名称(例如part1-0839709037fnfih.csv)的子部分。如果我可以自动列出 s3 文件夹中的 csv 文件并在计算之前使用它们,那就太好了。

get_ls_files <- .... #gives me list of all csv files in S3 folder

for (i in 1:length(get_ls_files)){

    filename = get_ls_files[i]

    tmp = s3read_using(FUN=read.csv, object=paste("my_folder/",filename),
               sep = ",",stringsAsFactors = F, header=T)

    .....
}
Run Code Online (Sandbox Code Playgroud)

r amazon-s3 amazon-web-services

3
推荐指数
1
解决办法
1151
查看次数

How to replace column with strings with look-up codes in R

Imagine that I have a dataframe or datatable with strings column where one row looks like this:

a1; b: b1, b2, b3; c: c1, c2, c3; d: d1, d2, d3, d4
Run Code Online (Sandbox Code Playgroud)

and a look-up table with codes for mapping each of these strings. For example:

string code
a1     10
b1     20
b2     30
b3     40
c1     50
c2     60
...
Run Code Online (Sandbox Code Playgroud)

I would like to have a mapping function that maps this string to code:

10; b: 20, 30, 40; c: …
Run Code Online (Sandbox Code Playgroud)

r gsub str-replace dataframe data.table

3
推荐指数
1
解决办法
71
查看次数

python中最小的浮点数

如何在Python中找到最少的浮点数?min()或array.min()不起作用.这是代码:

import numpy as np

z=np.array([[ -4.26141957e-01],
       [ -2.26582552e-01],
       [ -7.28807682e-03],
       [  2.72843324e-02],
       [ -5.59146620e-02],
       [ -2.06062340e-05],
       [  1.06954166e-09],
       [ -6.34170623e-01],
       [  5.07841198e-02],
       [ -1.89888605e-04]])

z_min=z.min()
Run Code Online (Sandbox Code Playgroud)

这给了z_min = -0.63417062312627426.我是Matlab用户,所以这让我很困惑......

python arrays numpy minimum

1
推荐指数
1
解决办法
254
查看次数