标签: etl

数据仓库自动化工具：好处还是坏处？

今天，在研究 ETL 和Kettle 之类的数据仓库解决方案时，我遇到了一个新概念（对我而言），称为数据仓库自动化工具。

我还查看了此处的白皮书，这表明该领域的供应商很少。

我对这些工具的一个反应是：哇，任何购买这些工具的人都在进行巨大的投资。同时，似乎许多数据仓库项目都失败了，即使它们需要开发人员花费大量时间来实施。

所以，如果有人在那里确实有在真实世界中的项目数据仓库的自动化工具的经验，你能回答这些问题吗？

DWA 工具是否极大地减少了启动和运行数据仓库的时间，或者是否占用了原本应该获得的时间来学习该工具所花费的时间？
如果 DWA 工具导致您的数据仓库项目失败，原因是什么？
如果你过去做过数据仓库没有使用 DWA 工具，而你最近也使用过 DWA 工具，你会在下一个数据仓库项目中再次使用 DWA 工具吗？
你什么时候会认为 DWA 工具是矫枉过正的？
您最喜欢使用 DWA 工具的哪一点？你最不喜欢什么？

data-warehouse etl

mg1*_*075

2016 02-11

5
推荐指数

2
解决办法

906
查看次数

SQL Server - 我应该使用什么备份/恢复策略来完成以下任务？

问题陈述： 我们的支持工程师需要从客户那里获取数据库备份。目前，我们的数据库包含在一个 Primary/.mdf 文件组/文件中。这些数据库多年来一直在收集历史数据，并且越来越大。我们的工程师需要几天时间才能将备份复制到我们的办公室。

似乎没有任何规定/想法来管理数据库的增长。

最“有价值”的数据是我们系统的“配置”。它包含在大约 50 个表中，我们正在考虑将这些表移至与历史数据（将放置在数据文件组中）分开的新配置文件组，以尝试为部分或文件备份设置阶段。

但我不确定我需要哪种备份/恢复策略来完成这个 - 部分备份或文件备份？

出于研发目的，我有一个名为FilegroupDemo使用SIMPLE恢复模型的数据库。FilegroupDemo包含 3 个文件组：

主要（映射到 FilegroupDemo.mdf）
配置（映射到 FilegroupDemo_Configuration.ndf）
数据（映射到 FilegroupDemo_Data.ndf）

配置文件组中的数据不会经常更改，并且可能会被标记为只读（如果有帮助），而数据文件组中的数据每分钟更改一次。

我希望能够灵活地仅备份/恢复主文件组和配置文件组/文件。

在SQL Server Partial Backups的 BOL 文章中，它指出：

部分备份类似于完整数据库备份，但部分备份不包含所有文件组。相反，对于读写数据库，部分备份包含主文件组、每个读写文件组以及一个或多个只读文件（可选）中的数据。

这种读取方式让我认为部分备份旨在省略只读文件组，最有可能用于不会更改并标记为只读的大量数据。这些不需要每次都备份。

1. 我说存在部分备份是为了备份所有文件组（除了标记为只读的文件组）是否正确？换句话说，如果我不使用只读文件组，那么使用部分备份就没有意义了——对吗？而且我认为我不能使用部分备份来备份只读文件组？

因此，我不认为部分备份是我所需要的。我相当天真地尝试了文件备份/恢复。我将数据库切换到FULL恢复模式并运行：

BACKUP DATABASE FilegroupDemo FILEGROUP = N'PRIMARY'
TO DISK = N'C:\Backups\FilegroupDemo_FG_Primary.bak'
WITH INIT
GO

BACKUP DATABASE FilegroupDemo FILEGROUP = N'Configuration'
TO DISK = N'C:\Backups\FilegroupDemo_FG_Configuration.bak'
WITH INIT
GO

BACKUP DATABASE FilegroupDemo FILEGROUP …

Run Code Online (Sandbox Code Playgroud)

sql-server etl backup restore sql-server-2014

Joh*_*ell

2016 10-15

5
推荐指数

1
解决办法

668
查看次数

ORA-12549 的狡猾原因？

我正在处理一个相当庞大的 ETL 处理，它不断向我抛出ORA-12549错误。

一直在寻找数据库中的问题，至今一无所获。DBA 说数据库“很好” - 有资源，没有达到要打开或处理的最大文件数，并且在所有表空间上都有空间。

我开始怀疑这个错误是否可能是由客户端抛出的。但是它是一个使用JDBC连接的Java应用程序，堆大小为16GB，根据GC日志也几乎没有填满。

这个过程本身相当简单：在 Oracle 中进行大量选择，对数据应用一些逻辑，然后定期提交到另一个表。我使用了从 500 万行到仅仅 10 万行的提交（分为 100 批 1k 行）。错误总是在同一点上。

有人能给我一些关于正在发生的事情的见解吗？我应该去哪里寻找线索？

客户端，ulimit 是 1024（在 Oracle 的服务器上是 65k），这有关系吗？

oracle etl oracle-11g-r2

fil*_*ppo

2012 08-16

4
推荐指数

1
解决办法

522
查看次数

替换列值？

我最近进入了 SSIS，但无法在网络上的任何地方找到我想要实现的目标。

我试图将一些行作为输入，然后用其他内容替换一个特定列的值，然后返回带有修改过的列的行作为输出。

问题是我不知道要使用哪个任务。

我受到 SQL Server 2008 的限制。

我该如何开始？

sql-server-2008 sql-server etl ssis

Mat*_*zen

2013 08-12

4
推荐指数

1
解决办法

3946
查看次数

SSIS多播性能问题

我想知道多播实际上是如何工作的。所以这是我的设置。我有一个大约 10 万行的源平面文件 (csv)，可能大约有 250-300 列，我正在将该文件多播到 7 个一对一表中。这些表中只有主键列是重复的。这个设置似乎工作正常，但现在看来我们可能遇到了内存问题。我想知道将数据多播到 7 个目的地是否太多。关于内存使用的任何想法？我真的不在乎它的运行速度有多快，只是想减少内存使用量。

我想到的一种替代方法是可能只是为同一个文件创建 7 个不同的连接管理器，然后按顺序运行所有内容。那会更好吗？谢谢！

etl ssis

Eva*_*van

2015 01-18

4
推荐指数

1
解决办法

1832
查看次数

如何使用 ETL？

我知道这些字母表示提取、转换和加载。

但是，当我一开始使用它时，我认为在转换阶段我可以对从数据源中提取的数据进行大量不同的连接，后来我意识到在不同的 ETL 上进行连接并不是那么方便.

那么我们在转换阶段做什么？
计算并输出结果 ?
字符串转换？
输入数据源应该只是 csv、xml 还是普通文件？
如果连接不是那么方便，我们是否应该只在 ETL 中进行高级转换？

谢谢

etl

Spr*_*dzy

2011 08-15

3
推荐指数

1
解决办法

1397
查看次数

在保留 IDENTITY 的同时将行插入其他表

我正在 SQL Server 表上执行 ETL 逻辑。我要将数据从一张表同步到另一张表。对于需要基于源表添加到目标表的所有记录，我正在对目标表中的这些行进行插入。架构将其中一列定义为标识列。因此 SQL Server 会自动增加插入的新行的 id。因为我要移动现有的 id，所以我需要删除标识，插入这些行，然后重新应用标识，然后重置种子以使其与源表匹配。这如何以编程方式完成？