标签: etl

设置连接详细信息后，我已KEY 使用选项将键设置为并将字段设置为所有其他字段Date of last insert (without stream field as source)。如果任何其他字段发生更改，我需要在数据库中创建一个新行。该行将具有相同key且更新的详细信息，设置out为无穷大并in设置为当前系统日期。

日期范围开始字段设置为IN，表日期范围结束字段设置为OUT数据库列。

我不明白这个技术密钥的概念，因为密钥也来自 csv 文件。

当我点击预览时出现错误：

   DB2 SQL error: SQLCODE: -407, SQLSTATE: 23502, SQLERRMC:

Run Code Online (Sandbox Code Playgroud)

请让我知道更多详细信息以及我错过的任何步骤或设置。

csv etl pentaho kettle

ras*_*jay

2015 03-13

2
推荐指数

1
解决办法

4664
查看次数

使用 read() 方法从 Amazon S3 读取大尺寸 JSON 文件时出现内存错误

我正在尝试使用 Python 将大量 JSON 文件从 Amazon S3 导入到 AWS RDS-PostgreSQL 中。但是，这些错误发生了，

回溯（最近一次调用最后一次）：

文件“my_code.py”，第 67 行，位于

file_content = obj['Body'].read().decode('utf-8').splitlines(True)

文件“/home/user/asd-to-qwe/fgh-to-hjk/env/local/lib/python3.6/site-packages/botocore/response.py”，第 76 行，读取

块= self._raw_stream.read(amt)

文件“/home/user/asd-to-qwe/fgh-to-hjk/env/local/lib/python3.6/site-packages/botocore/vendored/requests/packages/urllib3/response.py”，第239行，在读

数据 = self._fp.read()

文件“/usr/lib64/python3.6/http/client.py”，第 462 行，读取

s = self._safe_read(self.length)

文件“/usr/lib64/python3.6/http/client.py”，第 617 行，在 _safe_read 中

返回 b"".join(s)

内存错误

// my_code.py

import sys
import boto3
import psycopg2
import zipfile
import io
import json

s3 = boto3.client('s3', aws_access_key_id=<aws_access_key_id>, aws_secret_access_key=<aws_secret_access_key>)
connection = psycopg2.connect(host=<host>, dbname=<dbname>, user=<user>, password=<password>)
cursor = connection.cursor()

bucket = sys.argv[1]
key = sys.argv[2]
obj = s3.get_object(Bucket=bucket, Key=key)

def …

Run Code Online (Sandbox Code Playgroud)

python postgresql etl amazon-s3 amazon-rds

Ger*_*lan

2020 06-20

2
推荐指数

1
解决办法

5189
查看次数

AWS：在 Redshift 中自动查询

我想自动化每天运行的 redshift 插入查询。

我们实际上使用的是Aws环境。有人告诉我使用 lambda 不是正确的方法。这是在 Redshift 中自动执行查询的最佳 ETL 流程。

automation etl amazon-web-services amazon-redshift

Rrr*_*Rrr

lucky-day

2
推荐指数

1
解决办法

6115
查看次数

为什么在气流中使用 aws_athena_hook 时出现 NoRegionError？

我正在尝试使用气流按计划使用气流在 Athena 中运行查询。

我在下面包含的函数是使用PythonOperatorin运行的airflow。

from airflow.models import Variable
from airflow.contrib.hooks.aws_athena_hook import AWSAthenaHook
import datetime

def update_athena_partition(*args, **kwargs):
    execution_date = datetime.datetime.strptime(kwargs['ds'], '%Y-%m-%d')
    execution_month = execution_date.month
    execution_year = execution_date.year
    s3_prefix = Variable.get('bikeshare_s3_prefix')
    bucket_name = Variable.get('bikeshare_bucket_name')
    athena_table_name = Variable.get('bikeshare_athena_table')
    result_configuration = {"OutputLocation": "s3://{}/".format(bucket_name)}
    file_location = 's3://bucket_name/' + s3_prefix + f'year=2018/month=2/'
    partition_update_query = """
    ALTER TABLE {} add partition (year="{}", month='{}')
    location "{}";
    """
    athena_hook = AWSAthenaHook(aws_conn_id='aws_credentials')
    athena_hook.run_query(partition_update_query.format(athena_table_name,
                                                        2018,
                                                        2,
                                                        file_location),
                          result_configuration=result_configuration,
                          query_context="athena_database_name")

Run Code Online (Sandbox Code Playgroud)

这是我的 DAG

etl_dag = …

Run Code Online (Sandbox Code Playgroud)

etl boto3 airflow amazon-athena

Com*_*and

2019 08-13

2
推荐指数

1
解决办法

1861
查看次数

使用 SSIS 包将日期时间戳列添加到结束目标表

我有一个将 CSV 文件导入到数据库的 SSIS 包，并且该包将每天运行，因为它将新行附加到表的底部并且datetime目标表中没有列。

我想要做的是在目标表中创建一个新的date/timestamp并且每次加载数据时我都希望该表反映数据库中的加载时间Timestamp。

我不确定我是如何实现这一目标的。

sql-server datetime ssis timestamp etl

G M*_*han

2020 02-28

2
推荐指数

1
解决办法

776
查看次数

Azure 数据工厂/聚合为逗号分隔的字符串

我想使用Aggregate.

这是场景：

我有一张表，其值如下：

Key | Value
1   | v1
1   | v2
2   | v1
2   | v3

Run Code Online (Sandbox Code Playgroud)

执行聚合后，我希望输出如下：

Key | Value
1   | v1, v2
2   | v1, v3

Run Code Online (Sandbox Code Playgroud)

我试图找到String_AggADF 中没有的功能。

ssis etl azure azure-data-factory data-transform

Saa*_*adi

lucky-day

2
推荐指数

1
解决办法

1173
查看次数

水壶/ Pentaho的聚合作业

我正在尝试在Excel文件输入的某些列之间进行聚合操作.我有以下情况:

Column 1   Column 2    Column 3

X            $15           A
X            $20           A
Y            $1        B
Y            $1        B
Y            $3        C

我想实现这种聚合操作:

Column 1    Column 2    Column 3

X             $35           A
Y             $2            B
Y             $3            C

如您所见,第1列和第3列是执行聚合操作的标准,在这种情况下,我想获得第2列的总和.

在Pentaho数据集成中有没有办法做到这一点？我试过"加入行"和"加入行(作为笛卡尔产品)",但是,我没有结果.

etl pentaho kettle business-intelligence

Ale*_*rri

lucky-day

1
推荐指数

1
解决办法

3349
查看次数

标签统计

etl ×10

kettle ×3

pentaho ×3

ssis ×2

airflow ×1

amazon-athena ×1

amazon-rds ×1

amazon-redshift ×1

amazon-s3 ×1

amazon-web-services ×1

automation ×1

azure ×1

azure-data-factory ×1

boto3 ×1

business-intelligence ×1

csv ×1

data-transform ×1

datetime ×1

dimensional-modeling ×1

ios ×1

json ×1

postgresql ×1

python ×1

sql-server ×1

sqlite ×1

timestamp ×1

web-services ×1

标签 统计

标签统计