标签: etl

我正在尝试将来自Paradox数据库的数据(所有文件*.DB都位于文件夹中)导入到带有SSIS 2008的Sql server 2008.从我的OLE DB源,我使用Jet 4.0 OLE DB提供程序创建了一个新的连接,然后在扩展属性中指定"Paradox 5.0"但是在测试连接时我每次都得到相同的错误:"找不到ISAM驱动程序"任何想法如何解决这个问题？

非常感谢

ssis etl paradox

lar*_*o68

lucky-day

3
推荐指数

1
解决办法

3510
查看次数

Java Opensource ETL框架具有自动调度功能

我正在解析文件数据并加载到数据库,这个解析应该每5分钟重复一次.是否有任何ETL支持自动作业调度的Java 框架.

我接触过Talend.但是没有自动作业调度.我的目的是安排每隔5分钟解析jar文件.我不能依赖于crontab或Windows调度程序.任何人都可以建议我有任何ETL具有自动作业调度功能的开源Java 框架.

谢谢和问候,Gopal

java frameworks etl

use*_*979

2012 02-01

3
推荐指数

1
解决办法

2362
查看次数

避免在一组记录中重复值

我确信之前已经回答了,但问题是我不知道如何寻找解决方案.

我有一个Oracle查询,它给我这个结果:

ETA     Vessel   Line   POD   SZTP QTY
====    ======   ====   ===   ==== ===
26/12   MAEWIS   MAE    LIV   40RH  23
26/12   MAEWIS   MAE    PBL   40RH  12
26/12   APLMEN   APL    PTR   20DR  44
26/12   APLMEN   APL    TRU   20DR  22
27/12   APLMEN   APL    ECS   40RH   7
27/12   RICKEM   HPL    RTT   40RH  18

Run Code Online (Sandbox Code Playgroud)

而我需要的是:

ETA     Vessel   Line   POD   SZTP QTY
====    ======   ====   ===   ==== ===
26/12   MAEWIS   MAE    LIV   40RH  23
                        PBL   40RH  12
        APLMEN   APL    PTR   20DR  44
                        TRU   20DR  22 …

Run Code Online (Sandbox Code Playgroud)

sql oracle etl

Mar*_*ndo

2012 12-27

3
推荐指数

1
解决办法

1651
查看次数

如何根据CDC捕获的更改找到"数据仓库"的哪些记录？

我SQL Server 2012用于OLTP数据库并在中创建了一个数据仓库SQL Server 2012.

我设计Facts和Dimensions内部Data Warehouse有几个视图.

我的一些Fact表是通过在我的视图中加入几个表来完成的.

我使用CDC(更改数据捕获)来注意任何OLTP更改并将这些更改保存在a中Stage Database,最后我必须根据上面保存的更改来更新数据仓库.

问题是如何根据CDC保存的更改来检测我的数据仓库中哪些记录需要更新？

有关更多说明:

我有SalesFact我Data Warehouse有一个View像这样的

Select 
 Sum(T1.X),
 Sum(T2.Y),
 Sum(T3.Z),
 Sum(T4.W)
From T1
  Left join T2 On (....)
  Left join T3 On (....)
  Left join T4 On (....)
Group By T1.X,T2.Y,T3.Z,T4.W

Run Code Online (Sandbox Code Playgroud)

另外我有4个CDC Tables保存OLTP更改为:

Create Table T1Change()

Create Table T2Change()

Create Table T3Change()

Create Table T4Change()

Run Code Online (Sandbox Code Playgroud)

那么,如何 …

ssis etl data-warehouse sql-server-2012

Ard*_*oli

2014 04-10

3
推荐指数

1
解决办法

444
查看次数

SISSDB - 编写自定义消息

我正在使用SSIS 2012 - 项目部署模型,利用现成的SSISDB日志记录.

但是,我想知道如何将自定义消息记录到SSISDB,即当程序包启动或引发某个事件时"hello world".这可能吗？或者我是否必须回退到自定义日志表,这似乎破坏了SSISDB日志记录的优势.

谢谢!

database ssis etl

use*_*467

lucky-day

3
推荐指数

1
解决办法

1175
查看次数

我们能否使用sqoop将数据从Hadoop（Hive）导出到Amazon Redshift

我有一个本地Hadoop集群，想将数据加载到Amazon Redshift中。考虑到成本，不能选择Informatica / Talend，因此我们可以利用Sqoop将表从Hive直接导出到Redshift吗？Sqoop是否连接到Redshift？

hadoop etl amazon-web-services sqoop

Anj*_*udi

lucky-day

3
推荐指数

1
解决办法

1268
查看次数

将多个原始文件合并到单个拼花文件中

在S3中,我有大量的事件被yyyy/mm/dd/hh分区.每个分区都有大约80.000个原始文本文件.每个原始文件都有大约1.000个JSON格式的事件.

当我运行脚本来进行转换时:

datasource0 = glueContext.create_dynamic_frame.from_catalog(database=from_database,
                                                                table_name=from_table,
                                                                transformation_ctx="datasource0")
map0 = Map.apply(frame=datasource0, f=extract_data)
applymapping1 = ApplyMapping.apply(......)
applymapping1.toDF().write.mode('append').parquet(output_bucket, partitionBy=['year', 'month', 'day', 'hour'])

Run Code Online (Sandbox Code Playgroud)

我最终在分区上有大量小文件,名称如下:

part-00000-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet
part-00001-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet
part-00002-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet

Run Code Online (Sandbox Code Playgroud)

每个都是1-3KB的大小.Number大致对应于我拥有的原始文件数.

我的印象是Glue将从目录中获取所有事件,按照我想要的方式对它们进行分区,并将每个分区存储在一个文件中.

我如何实现这一目标？

etl apache-spark pyspark aws-glue

Dus*_*vic

lucky-day

3
推荐指数

1
解决办法

2270
查看次数