小编Vzz*_*arr的帖子

Amazon EC2与Amazon EMR

我在Hive中实现了一项任务.目前它在我的单节点集群上工作正常.现在我打算在AWS上部署它.

我对AWS一无所知.如果我计划部署它,那么我应该选择Amazon EC2或Amazon EMR？

我想改善我的任务的表现.哪一个更好,更可靠？如何接近他们？我听说我们也可以在AWS上注册我们的VM设置.可能吗？

请尽快建议我.

非常感谢.

hive amazon-ec2 amazon-web-services amazon-emr

Bha*_*hah

2018 09-19

19
推荐指数

2
解决办法

3万
查看次数

AWS DMS 与 RDS 上的 Postgresql 的连接问题

我有 2 个 Aws RDS 实例（在 Postgresql 上运行）。两者都在不同的帐户和不同的地区。我想使用 AWS DMS 在它们之间设置数据复制。我尝试过进行 VPC 对等互连。我观看了以下视频以启用 VPC 对等互连：-

https://www.youtube.com/watch?v=KmCEFGDTb8U

问题：- 当我尝试创建 AWS DMS 服务时，我为源添加了主机名、用户名和密码等（存在于其他账户上），当我点击时Test Connection，出现以下错误。

Test Endpoint failed: Application-Status: 1020912, Application-Message: Failed to connect Network error has occurred, Application-Detailed-Message: RetCode: SQL_ERROR SqlState: 08001 NativeError: 101 Message: [unixODBC]timeout expired ODBC general error.

Run Code Online (Sandbox Code Playgroud)

Test Connection令我惊讶的是，当我点击同一账户中的目标 RDS 实例时，我收到了类似的错误。IE：-

Test Endpoint failed: Application-Status: 1020912, Application-Message: Cannot connect to ODBC provider Network error has occurred, Application-Detailed-Message: RetCode: SQL_ERROR SqlState: 08001 NativeError: 101 Message: [unixODBC]timeout …

Run Code Online (Sandbox Code Playgroud)

postgresql amazon-web-services amazon-rds amazon-vpc aws-dms

use*_*665

2021 12-21

8
推荐指数

1
解决办法

1万
查看次数

如何从日期 PostgreSQL 中提取一个月中的第几周

我想从 DATE 类型中提取该月（而不是一年）中的周数。

示例：今天的日期是 07/08/2018。我不想要32结果（一年中的一周），但是2，因为今天是八月的第二周。

我期待类似的东西

SELECT EXTRACT($func FROM current_date);

Run Code Online (Sandbox Code Playgroud)

结果：2

该月的第一周从该月的第一天持续到第一个周日（第一周可能持续 1 到 7 天，例如，本月第一周从 2018 年 1 月 8 日星期三到星期日） 2018 年 5 月 8 日，5 天）。

添加本月的日历，为用户提供更多背景信息：

sql postgresql

Vzz*_*arr

2019 11-27

7
推荐指数

1
解决办法

6295
查看次数

我们如何在pyspark中指定maven依赖

在启动 Spark-submit / pyspark 时，我们确实可以选择使用该--jars选项指定 jar 文件。我们如何在 pyspark.xml 中指定 Maven 依赖项？运行 pyspark 应用程序时，我们是否必须始终传递所有 jars，还是有更干净的方法？

maven apache-spark pyspark

Nee*_*nur

2021 02-25

6
推荐指数

1
解决办法

9012
查看次数

java.io.InvalidClassException: org.apache.spark.internal.io.HadoopMapReduceCommitProtocol; 本地类不兼容

语境

我正在Spark 集群上执行 Spark 工具（如果有兴趣，这是 Spark 工具）。该工具正在从 HDFS 读取输入文件，并将在 HDFS 中生成输出文件。

我有 2 个 Azure VM，带有一个 Spark Master 容器、一个 Namenode 容器、两个 Spark Worker 容器和两个 Datanode 容器（另外两个容器提供工具所需的文件，但我不认为它很重要），使用 Docker 配置一群。

这是我用来运行 Spark 工具的 Bash 命令：

/gatk/gatk BwaAndMarkDuplicatesPipelineSpark \
--input hdfs://namenode:8020/PFC_0028_SW_CGTACG_R_fastqtosam.bam \
--reference hdfs://namenode:8020/hg19-ucsc/ucsc.hg19.2bit \
--bwa-mem-index-image /reference_image/ucsc.hg19.fasta.img \
--disable-sequence-dictionary-validation true \
--output hdfs://namenode:8020/PFC_0028_SW_CGTACG_R_dedup_reads.bam \
-- --spark-runner SPARK --spark-master spark://$SPARK_MASTER_HOST:7077 \
--driver-memory 30g --executor-cores 4 --executor-memory 15g

Run Code Online (Sandbox Code Playgroud)

问题

几个小时后，我收到此错误：

18/02/08 23:10:42 WARN TaskSetManager: Lost task 15.0 in stage 5.0 (TID 3087, 10.0.0.10, …

Run Code Online (Sandbox Code Playgroud)

java hadoop cluster-computing apache-spark

Vzz*_*arr

lucky-day

5
推荐指数

1
解决办法

1215
查看次数

Redshift Spectrum 如何扫描数据？

给定 S3 上由时间戳字段分区的 1.4 TB Parquet 数据的数据源（因此分区为year- month- day），我正在查询特定日期的数据（2.6 GB 数据）并通过 Redshift 检索 Parquet 文件中的所有可用字段此查询的频谱：

SELECT *
FROM my_external_schema.my_external_table
WHERE year = '2020' and month = '01' and day = '01'

Run Code Online (Sandbox Code Playgroud)

该表可通过Glue Crawler访问，该 Glue Crawler 指向 S3 中的顶层“文件夹”；这将创建一个数据库，然后通过此命令将数据库链接到新的外部架构：

create external schema my_external_schema from data catalog
database 'my_external_schema'
iam_role 'arn:aws:iam::123456789:role/my_role'
region 'my-region-9';

Run Code Online (Sandbox Code Playgroud)

在我的 IDE 中分析该表，我可以看到该表是由以下语句生成的：

create external table my_external_schema.my_external_table
    (
    id string,
    my_value string,
    my_nice_value string
    )
partitioned by (year string, month string, …

Run Code Online (Sandbox Code Playgroud)

amazon-s3 amazon-web-services amazon-redshift amazon-redshift-spectrum aws-glue-data-catalog

Vzz*_*arr

2020 11-20

5
推荐指数

1
解决办法

1390
查看次数

为什么 pyspark 中的 S3 目录源的 input_file_name() 为空？

我正在尝试获取通过 AWS Glue 中的 S3 数据目录加载的每个文件的输入文件名（或路径）。

我读过一些input_file_name()应该提供这些信息的地方（尽管警告说这只在调用时有效，from_catalog而不是from_options，我相信我是！）。

所以下面的代码似乎应该可以工作，但总是为每个input_file_name.

import sys

from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from pyspark.sql.functions import input_file_name


args = getResolvedOptions(sys.argv, ['JOB_NAME', 'TempDir'])
sc = SparkContext()
gc = GlueContext(sc)
spark = gc.spark_session


job = Job(gc)
job.init(args['JOB_NAME'], args)


# Get the source frame from the Glue Catalog, which describes files in S3
fm_source = gc.create_dynamic_frame.from_catalog(
    database='database_name',
    table_name='table_name',
    transformation_ctx='fm_source',
) …

Run Code Online (Sandbox Code Playgroud)

amazon-s3 amazon-web-services apache-spark pyspark aws-glue

Wil*_*oft

2020 11-21

4
推荐指数

2
解决办法

3781
查看次数

AZ64压缩格式性能

AWS Redshift最近发布了自己的新编码格式AZ64，他们说：

与ZSTD编码相比，AZ64消耗的存储空间减少了5–10％，速度提高了70％

当我使用A时，ANALYZE COMPRESSION my_table我仍然收到ZSTD其所有列的编码格式。

因此，是否真的建议将其作为ZSTD上的编码格式？我是否会天真的喜欢AZ64？

encoding amazon-web-services amazon-redshift zstd

Vzz*_*arr

2019 11-22

4
推荐指数

1
解决办法

54
查看次数

com.amazonaws.services.gluejobexecutor.model.VersionMismatchException

就像在这个AWS 论坛问题中一样，我同时运行 2 个作业。该作业已配置，Max concurrency: 10但在执行时job.commit()我收到此错误消息：

py4j.protocol.Py4JJavaError: An error occurred while calling z:com.amazonaws.services.glue.util.Job.commit.
: com.amazonaws.services.gluejobexecutor.model.VersionMismatchException: 
Continuation update failed due to version mismatch. Expected version 6 but found version 7
(Service: AWSGlueJobExecutor; Status Code: 400; Error Code: VersionMismatchException; Request ID: 123)

Run Code Online (Sandbox Code Playgroud)

两个作业读取不同部分的数据。

但我不明白这里有什么问题以及如何处理它。有人可以帮忙吗？

amazon-web-services apache-spark aws-glue

Vzz*_*arr

lucky-day

4
推荐指数

1
解决办法

3729
查看次数

[XX000][500310] [Amazon](500310) 无效操作：解析的清单不是有效的 JSON 对象

我正在一个包含多个具有不同架构的文件的文件夹上运行爬网程序。我希望为每个文件找到一个表。

发生的情况是，在 Glue Catalog 中，我实际上可以看到每个文件的一个表，以及它自己的架构。但是当我尝试通过 Redshift Spectrum 查询它时（创建外部架构等之后），我得到了这个异常：

[XX000][500310] [Amazon](500310) Invalid operation: Parsed manifest is not a valid JSON object.

Run Code Online (Sandbox Code Playgroud)

如何修复它？

amazon-s3 amazon-web-services amazon-redshift amazon-redshift-spectrum aws-glue

Vzz*_*arr

lucky-day

4
推荐指数

1
解决办法

5275
查看次数

标签统计

amazon-web-services ×7

apache-spark ×4

amazon-redshift ×3

amazon-s3 ×3

aws-glue ×3

amazon-redshift-spectrum ×2

postgresql ×2

pyspark ×2

amazon-ec2 ×1

amazon-emr ×1

amazon-rds ×1

amazon-vpc ×1

aws-dms ×1

aws-glue-data-catalog ×1

cluster-computing ×1

encoding ×1

hadoop ×1

hive ×1

java ×1

maven ×1

sql ×1

zstd ×1

标签 统计

小编Vzz_arr的帖子

标签统计