我的大多数公司都使用powercenter informatica来提取数据库之间的Extract-Transform-Load类型数据移动作业.
但是,我所参与的项目有一个很大的自定义Perl作业,其中有一些Java用于移动数据并触发其他一些更新.
有人说改写使用powercenter的东西,人们在这个项目上的经验是什么,它有意义吗?看起来你在进入这样一个"现成"的解决方案时会有很大的灵活性,但ETL工具在生产力方面是否会给你带来很多好处?
我想知道哪个是最好的策略来解决Talend中的以下问题:
我有点困惑,因为我不知道Talend是否可能.我看到了tFileInputDelimited组件,但我找不到解决它的方法.
谢谢
我正在尝试将来自Paradox数据库的数据(所有文件*.DB都位于文件夹中)导入到带有SSIS 2008的Sql server 2008.从我的OLE DB源,我使用Jet 4.0 OLE DB提供程序创建了一个新的连接,然后在扩展属性中指定"Paradox 5.0"但是在测试连接时我每次都得到相同的错误:"找不到ISAM驱动程序"任何想法如何解决这个问题?
非常感谢
我正在解析文件数据并加载到数据库,这个解析应该每5分钟重复一次.是否有任何ETL支持自动作业调度的Java 框架.
我接触过Talend.但是没有自动作业调度.我的目的是安排每隔5分钟解析jar文件.我不能依赖于crontab或Windows调度程序.任何人都可以建议我有任何ETL具有自动作业调度功能的开源Java 框架.
谢谢和问候,Gopal
我确信之前已经回答了,但问题是我不知道如何寻找解决方案.
我有一个Oracle查询,它给我这个结果:
ETA Vessel Line POD SZTP QTY
==== ====== ==== === ==== ===
26/12 MAEWIS MAE LIV 40RH 23
26/12 MAEWIS MAE PBL 40RH 12
26/12 APLMEN APL PTR 20DR 44
26/12 APLMEN APL TRU 20DR 22
27/12 APLMEN APL ECS 40RH 7
27/12 RICKEM HPL RTT 40RH 18
Run Code Online (Sandbox Code Playgroud)
而我需要的是:
ETA Vessel Line POD SZTP QTY
==== ====== ==== === ==== ===
26/12 MAEWIS MAE LIV 40RH 23
PBL 40RH 12
APLMEN APL PTR 20DR 44
TRU 20DR 22 …Run Code Online (Sandbox Code Playgroud) 我SQL Server 2012用于OLTP数据库并在中创建了一个数据仓库SQL Server 2012.
我设计Facts和Dimensions内部Data Warehouse有几个视图.
我的一些Fact表是通过在我的视图中加入几个表来完成的.
我使用CDC(更改数据捕获)来注意任何OLTP更改并将这些更改保存在a中Stage Database,最后我必须根据上面保存的更改来更新数据仓库.
问题是如何根据CDC保存的更改来检测我的数据仓库中哪些记录需要更新?
有关更多说明:
我有SalesFact我Data Warehouse有一个View像这样的
Select
Sum(T1.X),
Sum(T2.Y),
Sum(T3.Z),
Sum(T4.W)
From T1
Left join T2 On (....)
Left join T3 On (....)
Left join T4 On (....)
Group By T1.X,T2.Y,T3.Z,T4.W
Run Code Online (Sandbox Code Playgroud)
另外我有4个CDC Tables保存OLTP更改为:
Create Table T1Change()
Create Table T2Change()
Create Table T3Change()
Create Table T4Change()
Run Code Online (Sandbox Code Playgroud)
那么,如何 …
我正在使用SSIS 2012 - 项目部署模型,利用现成的SSISDB日志记录.
但是,我想知道如何将自定义消息记录到SSISDB,即当程序包启动或引发某个事件时"hello world".这可能吗?或者我是否必须回退到自定义日志表,这似乎破坏了SSISDB日志记录的优势.
谢谢!
我有一个本地Hadoop集群,想将数据加载到Amazon Redshift中。考虑到成本,不能选择Informatica / Talend,因此我们可以利用Sqoop将表从Hive直接导出到Redshift吗?Sqoop是否连接到Redshift?
在S3中,我有大量的事件被yyyy/mm/dd/hh分区.每个分区都有大约80.000个原始文本文件.每个原始文件都有大约1.000个JSON格式的事件.
当我运行脚本来进行转换时:
datasource0 = glueContext.create_dynamic_frame.from_catalog(database=from_database,
table_name=from_table,
transformation_ctx="datasource0")
map0 = Map.apply(frame=datasource0, f=extract_data)
applymapping1 = ApplyMapping.apply(......)
applymapping1.toDF().write.mode('append').parquet(output_bucket, partitionBy=['year', 'month', 'day', 'hour'])
Run Code Online (Sandbox Code Playgroud)
我最终在分区上有大量小文件,名称如下:
part-00000-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet
part-00001-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet
part-00002-a5aa817d-482c-47d0-b804-81d793d3ac88.snappy.parquet
Run Code Online (Sandbox Code Playgroud)
每个都是1-3KB的大小.Number大致对应于我拥有的原始文件数.
我的印象是Glue将从目录中获取所有事件,按照我想要的方式对它们进行分区,并将每个分区存储在一个文件中.
我如何实现这一目标?
我已经在C#脚本中填充了一个列表,并将其值分配给SSIS对象变量。
然后,我使用该对象变量通过遍历For Each do枚举器来执行一些SQL查询。
我尝试通过Foreach ado枚举器执行此操作,但出现错误
X变量不包含有效的数据对象。
任何人都可以提供任何输入。
etl ×10
ssis ×4
apache-spark ×1
aws-glue ×1
database ×1
foreach ×1
frameworks ×1
hadoop ×1
informatica ×1
java ×1
oracle ×1
paradox ×1
perl ×1
pyspark ×1
sql ×1
sql-server ×1
sqoop ×1
talend ×1