标签: talend

如何使用talend和sql server更快地加载数据

我使用Talend将数据加载到sql-server数据库中.

看来我工作中最薄弱的部分不是数据处理,而是数据库中的有效负载,不超过17行/秒.

有趣的一点是,我可以同时启动5个工作,并且它们都将以17个/秒的速度加载.

什么可以解释这种缓慢,我怎样才能提高速度?

谢谢

新信息:

我的桌面和服务器之间的传输速度大约是1MByte

我的工作每10 000工作一次

我使用sql server 2008 R2

我用于工作的模式是这样的:

在此输入图像描述

sql-server upsert database-performance talend

8
推荐指数
2
解决办法
3万
查看次数

如何在Talend中使用tFileExist组件?

使用Talend,我想验证ListePS.xls我的名字中是否有一个文件D:/ 可以做其他处理.

如何检查Talend中是否存在文件?

talend

7
推荐指数
3
解决办法
1万
查看次数

用于数据集成的Talend Open Studio与用于大数据的Talend Open Studio之间的区别

我对Talend提供的不同产品感到困惑.

看来,Talend Open Studio for Data IntegrationTalend Open Studio for Big Data是相同的产品,但只是默认安装不同的组件.是对的吗?如果我使用Talend Open Studio进行数据集成并从Talend Exchange下载我需要的组件(例如Google BigQuery),它是否真的是同一产品?

talend business-intelligence

7
推荐指数
1
解决办法
5228
查看次数

Talend greenplumRow错误处理

我想使用一个简单的talend作业在greenplum HAWQ中创建视图,它基本上有一个fileinput包含我需要执行CREATE VIEW脚本的所有视图.

由于这些视图(50-60.000)来自oracle系统,我需要找到我们无法创建的视图.

这是我的问题的模拟: 在此输入图像描述

我已经在数据库中有了一个视图,我想再创建它3次.这显然会失败.

这是输出:

Exception in component tGreenplumRow_2
org.postgresql.util.PSQLException: ERROR: relation "ad_apps_dependencies" already exists
    at org.postgresql.core.v3.QueryExecutorImpl.receiveErrorResponse(QueryExecutorImpl.java:1592)
.--------------.
|  tLogRow_4   |
|=------------=|
|componenterror|
|=------------=|
|componenterror|
'--------------'

.-----------------------------------------------------+-------------------------------------------------------------.
|                                                                                  tLogRow_5                        |
|=----------------------------------------------------+------------------------------------------------------------=|
|result                                               |result1                                                      |
|=----------------------------------------------------+------------------------------------------------------------=|
|ERROR: relation "ad_apps_dependencies" already exists|CREATE VIEW SYSTEM.AD_APPS   AS SELECT * FROM APPLSYS.AD_APPS|
'-----------------------------------------------------+-------------------------------------------------------------'

.------------.
| tLogRow_6  |
|=----------=|
|subjobError |
|=----------=|
|Subjob Error|
'------------'
Run Code Online (Sandbox Code Playgroud)

我希望这个输出有3次,因为我尝试运行3次查询.(在最终版本中,我将创建另一个仅包含失败查询的文件,因此我们稍后可以修复它,但这是关键点.)

作为一种解决方法:我可以将此tRow - > OnError - > FixedFlow - > FailedViews部分移动到不同的作业中,但这不是一个优雅的解决方案.

etl talend greenplum hawq

7
推荐指数
1
解决办法
825
查看次数

使用Talend Open Studio将JSON写入字段

我尝试将旧数据库中的数据迁移到我们的新应用程序中.

在进程中,我需要从旧数据库中获取数据以创建必须存储在新MySQL数据库中的字段中的JSON.

所以我使用组件tWriteJSONFieldtExtractJSONFields.

tWriteJSONField,我的XML树看起来像这样:

path
|-- id [loop element]
|-- name
|-- description
Run Code Online (Sandbox Code Playgroud)

注意:我找不到如何使用loop elementgroup element属性.我不明白它是如何工作的,文档没有谈到这一点.

该组件tWriteJSONField链接到a tExtractJSONFields以便id从JSON中提取.我需要知道每个记录JSON必须链接.

tExtractJSONFields配置:XPath请求

"/path"
Run Code Online (Sandbox Code Playgroud)

tExtractJSONFields配置:映射

-----------------------------------------------
| column        | XPath request | get nodes ? |
-----------------------------------------------
| idForm        | "id"          | false       |
-----------------------------------------------
| jsonStructure | "*"           | yes         |
-----------------------------------------------
Run Code Online (Sandbox Code Playgroud)

我的问题是jsonStructure输出tExtractJSONField,我只得到我的root标签的第一个孩子.在我的情况下jsonStructure看起来像这样:

{
   "id": "123"
}
Run Code Online (Sandbox Code Playgroud)

预期结果是: …

json talend

6
推荐指数
1
解决办法
8458
查看次数

tOracleOutput组件中的Talend ETL作业错误

我是TalendETL的新手,我正在使用Talend Open Studio for Big Data 5.4.1版.我开发了一个简单的Talend ETL作业,它从csv文件中获取数据并将数据插入到我的本地Oracle数据库中.以下是我的包的样子:

在此输入图像描述

该作业返回一个异常,该异常ArrayIndexOutOfBounds位于csv文件的最后一条记录之后.但我不确定为什么它应该首先归还?我查看了此链接上给出的解决方案:http://www.talendforge.org/forum/viewtopic.php?id = 21644

但它似乎根本不起作用.我有oracle组件的最新驱动程序,增加/减少提交大小似乎不会影响它.

有人可以帮我解决这个问题吗?如果需要更多信息,请告诉我.

PS:完整的错误日志如下: -

Starting job Kaggle_Data_Load_Training at 09:31 25/06/2014.

[statistics] connecting to socket on port 3957
[statistics] connected
Exception in component tOracleOutput_1
java.lang.ArrayIndexOutOfBoundsException: -32203
    at oracle.jdbc.driver.OraclePreparedStatement.setupBindBuffers(OraclePreparedStatement.java:2677)
    at oracle.jdbc.driver.OraclePreparedStatement.executeBatch(OraclePreparedStatement.java:9270)
    at oracle.jdbc.driver.OracleStatementWrapper.executeBatch(OracleStatementWrapper.java:210)
    at test.kaggle_data_load_training_0_1.Kaggle_Data_Load_Training.tFileInputDelimited_1Process(Kaggle_Data_Load_Training.java:4360)
    at test.kaggle_data_load_training_0_1.Kaggle_Data_Load_Training.runJobInTOS(Kaggle_Data_Load_Training.java:4717)
    at test.kaggle_data_load_training_0_1.Kaggle_Data_Load_Training.main(Kaggle_Data_Load_Training.java:4582)
[statistics] disconnected
Job Kaggle_Data_Load_Training ended at 09:31 25/06/2014. [exit code=1]
Run Code Online (Sandbox Code Playgroud)

java etl talend

6
推荐指数
1
解决办法
5719
查看次数

如何为Talend工作编写测试用例?

我在Talend设计了一份工作.这项工作是从数据库中获取数据并将其转换为json,并在服务器上上传该json.我想为我的工作编写测试用例,就像我们在java项目中编写单元测试一样.我已经搜索了很多关于如何为talend作业编写测试用例但是没有找到任何东西.如果有人知道如何测试talend工作请建议.

unit-testing etl talend

6
推荐指数
1
解决办法
4791
查看次数

Talend如何打开talend.project文件

我是talend的新手,并从已离开公司的人那里继承了一些项目.我无法弄清楚如何打开作业并进行编辑.我下载并正在运行Talend DI.当我尝试导入项目时,我收到了消息."所选文件夹不是Talend Open Studio项目."

项目文件看起来像这样.( - 代表一个文件夹)

-项目名

-lib

jobinfo.properties

有人能指出我正确的方向.

谢谢

talend

6
推荐指数
1
解决办法
4783
查看次数

Talend ESB中的路由和工作有什么区别?

他们似乎做了或多或少相同的事情 - 获取数据,处理数据并将其发送出去.

互联网搜索结果显示,Talend Routes几乎与Camel Routes相同,但这并没有说明它们是什么以及它们与Jobs有何不同.

Talend ESB的路线和工作是什么?他们之间有什么区别?何时比较喜欢一个?

jobs routes talend

6
推荐指数
1
解决办法
1872
查看次数

我们可以使用雪花作为数据驱动的 Web 应用程序的数据库吗?

我通过谷歌搜索了解到 Snowwflake 可以从 AWS-S3、Google Storage 和 Azure 中放入/获取数据。Snowflake 也有自己的数据库和表格。我有以下问题,

  1. 当您可以使用 Cloud Storage(S3 等)和 Talend 或任何其他 ETL 工具计算数据时,为什么应该使用 Snowflake?
  2. 我们可以使用 Snowflake 作为数据驱动的 Web 应用程序的数据库吗?如果是,您能否提供链接或其他内容来启动?

talend snowflake-cloud-data-platform

6
推荐指数
2
解决办法
5730
查看次数