标签: etl

informatica powercenter vs custom perl ETL的工作?

我的大多数公司都使用powercenter informatica来提取数据库之间的Extract-Transform-Load类型数据移动作业.

但是,我所参与的项目有一个很大的自定义Perl作业,其中有一些Java用于移动数据并触发其他一些更新.

有人说改写使用powercenter的东西,人们在这个项目上的经验是什么,它有意义吗?看起来你在进入这样一个"现成"的解决方案时会有很大的灵活性,但ETL工具在生产力方面是否会给你带来很多好处?

perl etl informatica informatica-powercenter

3
推荐指数
1
解决办法
4802
查看次数

在Talend中加载一组文件的策略

我想知道哪个是最好的策略来解决Talend中的以下问题:

  • 我需要从一组分隔文件中加载数据,这些文件存储在名为(SAMPLE1.DAT,SAMPLE2.DAT,...,SAMPLEX.DAT)的目录中
  • 目标将是MySQL数据库中的表
  • 我必须一次加载所有数据,因为在完成此任务后,我需要处理同一个表中的所有记录

我有点困惑,因为我不知道Talend是否可能.我看到了tFileInputDelimited组件,但我找不到解决它的方法.

谢谢

etl talend

3
推荐指数
1
解决办法
8147
查看次数

SSIS如何从Paradox导入数据?

我正在尝试将来自Paradox数据库的数据(所有文件*.DB都位于文件夹中)导入到带有SSIS 2008的Sql server 2008.从我的OLE DB源,我使用Jet 4.0 OLE DB提供程序创建了一个新的连接,然后在扩展属性中指定"Paradox 5.0"但是在测试连接时我每次都得到相同的错误:"找不到ISAM驱动程序"任何想法如何解决这个问题?

非常感谢

ssis etl paradox

3
推荐指数
1
解决办法
3510
查看次数

Java Opensource ETL框架具有自动调度功能

我正在解析文件数据并加载到数据库,这个解析应该每5分钟重复一次.是否有任何ETL支持自动作业调度的Java 框架.

我接触过Talend.但是没有自动作业调度.我的目的是安排每隔5分钟解析jar文件.我不能依赖于crontab或Windows调度程序.任何人都可以建议我有任何ETL具有自动作业调度功能的开源Java 框架.

谢谢和问候,Gopal

java frameworks etl

3
推荐指数
1
解决办法
2362
查看次数

避免在一组记录中重复值

我确信之前已经回答了,但问题是我不知道如何寻找解决方案.

我有一个Oracle查询,它给我这个结果:

ETA     Vessel   Line   POD   SZTP QTY
====    ======   ====   ===   ==== ===
26/12   MAEWIS   MAE    LIV   40RH  23
26/12   MAEWIS   MAE    PBL   40RH  12
26/12   APLMEN   APL    PTR   20DR  44
26/12   APLMEN   APL    TRU   20DR  22
27/12   APLMEN   APL    ECS   40RH   7
27/12   RICKEM   HPL    RTT   40RH  18
Run Code Online (Sandbox Code Playgroud)

而我需要的是:

ETA     Vessel   Line   POD   SZTP QTY
====    ======   ====   ===   ==== ===
26/12   MAEWIS   MAE    LIV   40RH  23
                        PBL   40RH  12
        APLMEN   APL    PTR   20DR  44
                        TRU   20DR  22 …
Run Code Online (Sandbox Code Playgroud)

sql oracle etl

3
推荐指数
1
解决办法
1651
查看次数

如何根据CDC捕获的更改找到"数据仓库"的哪些记录?

SQL Server 2012用于OLTP数据库并在中创建了一个数据仓库SQL Server 2012.

我设计FactsDimensions内部Data Warehouse有几个视图.

我的一些Fact表是通过在我的视图中加入几个表来完成的.

我使用CDC(更改数据捕获)来注意任何OLTP更改并将这些更改保存在a中Stage Database,最后我必须根据上面保存的更改来更新数据仓库.

问题是如何根据CDC保存的更改来检测我的数据仓库中哪些记录需要更新?

有关更多说明:

我有SalesFactData Warehouse有一个View像这样的

Select 
 Sum(T1.X),
 Sum(T2.Y),
 Sum(T3.Z),
 Sum(T4.W)
From T1
  Left join T2 On (....)
  Left join T3 On (....)
  Left join T4 On (....)
Group By T1.X,T2.Y,T3.Z,T4.W
Run Code Online (Sandbox Code Playgroud)

另外我有4个CDC Tables保存OLTP更改为:

Create Table T1Change()

Create Table T2Change()

Create Table T3Change()

Create Table T4Change()
Run Code Online (Sandbox Code Playgroud)

那么,如何 …

ssis etl data-warehouse sql-server-2012

3
推荐指数
1
解决办法
444
查看次数

SISSDB - 编写自定义消息

我正在使用SSIS 2012 - 项目部署模型,利用现成的SSISDB日志记录.

但是,我想知道如何将自定义消息记录到SSISDB,即当程序包启动或引发某个事件时"hello world".这可能吗?或者我是否必须回退到自定义日志表,这似乎破坏了SSISDB日志记录的优势.

谢谢!

database ssis etl

3
推荐指数
1
解决办法
1175
查看次数

我们能否使用sqoop将数据从Hadoop(Hive)导出到Amazon Redshift

我有一个本地Hadoop集群,想将数据加载到Amazon Redshift中。考虑到成本,不能选择Informatica / Talend,因此我们可以利用Sqoop将表从Hive直接导出到Redshift吗?Sqoop是否连接到Redshift?

hadoop etl amazon-web-services sqoop

3
推荐指数
1
解决办法
1268
查看次数

将多个原始文件合并到单个拼花文件中

在S3中,我有大量的事件被yyyy/mm/dd/hh分区.每个分区都有大约80.000个原始文本文件.每个原始文件都有大约1.000个JSON格式的事件.

当我运行脚本来进行转换时:

datasource0 = glueContext.create_dynamic_frame.from_catalog(database=from_database,
                                                                table_name=from_table,
                                                                transformation_ctx="datasource0")
map0 = Map.apply(frame=datasource0, f=extract_data)
applymapping1 = ApplyMapping.apply(......)
applymapping1.toDF().write.mode('append').parquet(output_bucket, partitionBy=['year', 'month', 'day', 'hour'])
Run Code Online (Sandbox Code Playgroud)

我最终在分区上有大量小文件,名称如下:

part-00000-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet
part-00001-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet
part-00002-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet
Run Code Online (Sandbox Code Playgroud)

每个都是1-3KB的大小.Number大致对应于我拥有的原始文件数.

我的印象是Glue将从目录中获取所有事件,按照我想要的方式对它们进行分区,并将每个分区存储在一个文件中.

我如何实现这一目标?

etl apache-spark pyspark aws-glue

3
推荐指数
1
解决办法
2270
查看次数

可以使用C#的数组列表填充SSIS对象变量吗?

我已经在C#脚本中填充了一个列表,并将其值分配给SSIS对象变量。

然后,我使用该对象变量通过遍历For Each do枚举器来执行一些SQL查询。

我尝试通过Foreach ado枚举器执行此操作,但出现错误

X变量不包含有效的数据对象。

任何人都可以提供任何输入。

在此处输入图片说明

sql-server foreach ssis etl

3
推荐指数
1
解决办法
1894
查看次数