标签: etl

获取 MERGE 语句中执行的所有操作的 ROWCOUNT

我对这个说法感到惊讶MERGE，该公司并没有真正实现第 2 类缓慢变化维度，但已经接近了。奇怪的是，它甚至不是分析数据，但让我们忽略这个可怕的决定。我有这个工作引用指示HashBytes的已更改行。INSERT不幸的是，为了解决所有场景，我最终在临时表的末尾添加了实际上保存更新行的附加内容。

唉，它很实用，但如果您有更有效的设计，请分享。我会很感激。

但是，我试图row count不仅INSERT从Temp表中获取代表，而且还代表更新和新的INSERTS，所有这些都是具有自己的不同单独的操作row count，我需要记录和解释。

请问我该怎么做？

DECLARE @dtNow AS DATETIME = GetDate()
DECLARE @dtPast AS DATETIME = DATEADD(day,-1,GetDate())
DECLARE @dtFuture AS DATETIME = '22991231'
    SET NOCOUNT ON;

  -- Temp Table is JUST Updating Rows reflecting 
--Historical Marker on existing row No content change to row's columnar     content data 

IF OBJECT_ID('tempdb..#TheTempTableName') IS NOT NULL DROP TABLE     #TheTempTableName


CREATE TABLE #TheTempTableName …

Run Code Online (Sandbox Code Playgroud)

sql sql-server merge ssis etl

Chr*_*mer

2019 02-01

4
推荐指数

1
解决办法

9906
查看次数

对于每个循环 SSIS。依赖于 SQL 查询

我有一个 SSIS 包，它检查跟踪表中存在的未处理文件，然后对其进行处理。到目前为止，只有一个文件会进来，我们会对其进行处理，因此流程是相应设计的。
然而，现在多个文件可以一次性进入，我们将这些多个文件存储在跟踪表中，并且有一列用于跟踪未处理的文件。

我正在尝试使用 For Each 循环来处理所有未处理的文件。因此，我获得了未处理文件的计数，并希望通过将参数传递给步骤 1 来简单地调整点 1，但我没有成功地使用 Foreach From Variable Enumerator 来完成此操作。我错过了什么吗？

sql-server ssis etl foreach-loop-container sql-server-data-tools

Sun*_*nil

2019 03-14

4
推荐指数

1
解决办法

7685
查看次数

在 Kusto DB 中更新插入

我有一个 ADF，它每天将 Kusto 函数的输出写入 Kusto 表。我需要每天将数据更新到表中。我没有找到更新 Kusto DB 中现有数据的方法。如果数据不存在，有什么方法可以插入行，否则通过 ADF 更新现有行？

设置或替换对我来说非常昂贵，因为该表包含大量数据

如果这是不可能的，我可以使用我拥有的日期时间戳截断最近 2 个月的数据并从函数中重新加载它吗

etl adfs azure-data-explorer

Ali*_*ese

2019 07-25

4
推荐指数

1
解决办法

2284
查看次数

SSIS 错误：“ODBC 源”验证失败并返回验证状态“VS_NEEDSNEWMETADATA”

我有一个 SSIS 项目，去年我没有遇到任何问题。目前，我可以从 Visual Studio 2019 中执行未更改的包，并将其作为 SSMS 中的 SQL 代理作业，不会出现任何问题。

但是，如果我在数据任务中打开数据流 ODBC 源，系统会提示我更新输出列上的元数据。无论我选择“是”还是“否”并且不对包进行其他更改，我都会在执行时收到以下错误：

“ODBC Source”验证失败并返回验证状态“VS_NEEDSNEWMETADATA”。

我认为可能导致此错误的唯一更改是我在服务器上从 Visual Studio 2017 更新到 Visual Studio 2019。我在本地计算机上使用 VS 2019，它也有同样的问题。

ODBC 源使用 SQL Anywhere 17 32 位驱动程序。

我已尝试以下操作并在执行时继续收到错误：

重新创建了数据流任务、ODBC 连接管理器和包。
使用 DTEXEC /FILE 运行包。
在 ODBC 源上将 ValidateExternalMetadata 设置为 False
确认数据源上的外部列和输出列具有相同的数据类型

编辑：我在 VS 2017 中创建了一个具有相同数据流任务的新项目。我可以运行并编辑 ODBC 源，在执行时不会出现任何元数据错误。我在 VS 2019 中打开该项目，一打开 ODBC 源，就提示我更新元数据。然后在执行时，我收到“VS_NEEDSNEWMETADATA”错误。有什么想法可以在 VS 2019 中纠正这个问题吗？

sql-server odbc ssis etl sqlanywhere

Hsl*_*lew

2019 09-03

4
推荐指数

1
解决办法

1万
查看次数

自动化：将数据从本地 CSV 推送到 Kusto 数据库表

我从网页下载了不同的数据，并将其另存为 .csv 文件在本地目录中。我想将该数据推送到我在 Kusto Explorer 上创建的表中，理想情况下，我希望将此过程安排为每天自动进行，因为网站上的数据每天都会更新。

例如：

这里我有 3 个 .csv 文件：

1.csv
2.csv
3.csv

Run Code Online (Sandbox Code Playgroud)

这里我在 Kusto 上创建了 3 个表来分别存储每个 csv 数据：

Table_1
Table_2
Table_3

Run Code Online (Sandbox Code Playgroud)

问题是：是否可以自动化并安排从本地 CSV 到 Kusto 的数据推送/加载？数据推送/加载类型是目前的，但将来Replace可能需要。Append

建议我使用 Flow ( https://preview.flow.microsoft.com/en-us/ ) 来检查是否已设置任何类似的模板。但是，我找不到任何工具，并且对这些工具很陌生，因此我需要了解这一点的人的帮助。预先非常感谢。如果您需要任何进一步的信息，请告诉我。

csv automation etl kql azure-data-explorer

an1*_*que

lucky-day

4
推荐指数

1
解决办法

2290
查看次数

让 Glue 在作业后删除源数据

AWS Glue 非常适合将数据从原始形式转换为您需要的任何格式，并保持源数据集和目标数据集同步。

但是，我有一个场景，其中数据从不受信任的外部源进入“着陆区域”存储桶，并且第一个 ETL 步骤需要是数据验证步骤，仅允许有效数据传递到数据湖，而无效数据被移至隔离桶进行人工检查。

无效数据包括：

错误的文件格式/编码
无法解析的内容
不匹配的模式
甚至对数据本身进行一些健全性检查

“着陆区域”存储桶不是数据湖的一部分，它只是传入数据的临时死角，因此我需要验证作业在将文件移动到数据湖和/或检疫桶。

这可以用胶水实现吗？如果数据从源存储桶中删除，Glue 最终是否会在后续更新中将其删除到下游？

我是否需要使用不同的工具（例如 StreamSets、NiFi 或带有 AWS Batch 的 Step Functions）来执行此验证步骤，并且仅在数据进入数据湖后才使用 Glue？

（我知道我可以在存储桶本身上设置生命周期规则，以便在一定时间（例如 24 小时）后删除数据，但理论上这可以在 Glue 处理数据之前删除数据，例如，如果 Glue 作业出现问题）

etl bigdata aws-glue

Jen*_*and

lucky-day

4
推荐指数

1
解决办法

9700
查看次数

Azure数据工厂：处理until/for活动中的内部故障

我有一个包含 Until 活动的 Azure 数据工厂 v2 管道。

\n\n

直到里面是一个复制活动 - 如果失败，则会记录错误，与本文中完全相同，并且我希望循环继续。

\n\n

Azure 数据工厂管道“发生故障”

\n\n

尽管处理了内部复制活动\xe2\x80\x99s 错误，但直到活动被视为失败，因为内部活动已失败。

\n\n

有没有办法配置直到活动在内部活动失败时继续？

error-handling etl azure azure-data-factory until-loop

Jas*_*lch

2020 05-26

4
推荐指数

1
解决办法

7402
查看次数

在 Apache NiFi 中读取 UCS-2 LE BOM 编码文件时出现问题

在 Apache NiFi 中，我尝试读取编码为 as 的文本文件，UCS-2 LE BOM然后尝试将其转换为 JSON。但 Apache NiFi 将其视为单行。

我尝试转换为UTF-8使用 ConvertText 处理器，但它不支持编码UCS-2 LE BOM。

有谁知道如何将此文件转换为UTF-8使用 Apache NiFi？

java etl character-encoding apache-nifi

Jam*_*ron

lucky-day

4
推荐指数

1
解决办法

3433
查看次数

在 React 中使用 canvas html5 的清晰方法，无需始终渲染所有画布形状

目前，我使用 React 堆栈从事 Saas 平台的 ETL 项目。我尝试找到一种干净的方法来将画布与 React 一起使用，并在调用 React Render 函数时仅渲染 Canvas 的某些形状，而无需每次都创建新的画布

我的想法是让一个组件与 JSX 发生反应，如下所示：

    <MyReactCanvas>
      <MyShape1 positionX= "10", positionY="10">
      <MyShape2>
      <MyGroupShape>
        <MyShape3>
      </MyGroupShape>
    <MyReactCanvas>

Run Code Online (Sandbox Code Playgroud)

我的目标是拥有这样的东西： ETL 示例

如果您有一些关于如何在 React 中使用画布的建议、文章、代码或信息

javascript etl saas html5-canvas reactjs

idi*_*dir

2021 01-21

4
推荐指数

1
解决办法

2万
查看次数