我使用Talend将数据加载到sql-server数据库中.
看来我工作中最薄弱的部分不是数据处理,而是数据库中的有效负载,不超过17行/秒.
有趣的一点是,我可以同时启动5个工作,并且它们都将以17个/秒的速度加载.
什么可以解释这种缓慢,我怎样才能提高速度?
谢谢
新信息:
我的桌面和服务器之间的传输速度大约是1MByte
我的工作每10 000工作一次
我使用sql server 2008 R2
我用于工作的模式是这样的:

使用Talend,我想验证ListePS.xls我的名字中是否有一个文件D:/
可以做其他处理.
如何检查Talend中是否存在文件?
我对Talend提供的不同产品感到困惑.
看来,Talend Open Studio for Data Integration和Talend Open Studio for Big Data是相同的产品,但只是默认安装不同的组件.是对的吗?如果我使用Talend Open Studio进行数据集成并从Talend Exchange下载我需要的组件(例如Google BigQuery),它是否真的是同一产品?
我想使用一个简单的talend作业在greenplum HAWQ中创建视图,它基本上有一个fileinput包含我需要执行CREATE VIEW脚本的所有视图.
由于这些视图(50-60.000)来自oracle系统,我需要找到我们无法创建的视图.
这是我的问题的模拟:

我已经在数据库中有了一个视图,我想再创建它3次.这显然会失败.
这是输出:
Exception in component tGreenplumRow_2
org.postgresql.util.PSQLException: ERROR: relation "ad_apps_dependencies" already exists
at org.postgresql.core.v3.QueryExecutorImpl.receiveErrorResponse(QueryExecutorImpl.java:1592)
.--------------.
| tLogRow_4 |
|=------------=|
|componenterror|
|=------------=|
|componenterror|
'--------------'
.-----------------------------------------------------+-------------------------------------------------------------.
| tLogRow_5 |
|=----------------------------------------------------+------------------------------------------------------------=|
|result |result1 |
|=----------------------------------------------------+------------------------------------------------------------=|
|ERROR: relation "ad_apps_dependencies" already exists|CREATE VIEW SYSTEM.AD_APPS AS SELECT * FROM APPLSYS.AD_APPS|
'-----------------------------------------------------+-------------------------------------------------------------'
.------------.
| tLogRow_6 |
|=----------=|
|subjobError |
|=----------=|
|Subjob Error|
'------------'
Run Code Online (Sandbox Code Playgroud)
我希望这个输出有3次,因为我尝试运行3次查询.(在最终版本中,我将创建另一个仅包含失败查询的文件,因此我们稍后可以修复它,但这是关键点.)
作为一种解决方法:我可以将此tRow - > OnError - > FixedFlow - > FailedViews部分移动到不同的作业中,但这不是一个优雅的解决方案.
我尝试将旧数据库中的数据迁移到我们的新应用程序中.
在进程中,我需要从旧数据库中获取数据以创建必须存储在新MySQL数据库中的字段中的JSON.
所以我使用组件tWriteJSONField和tExtractJSONFields.
在tWriteJSONField,我的XML树看起来像这样:
path
|-- id [loop element]
|-- name
|-- description
Run Code Online (Sandbox Code Playgroud)
注意:我找不到如何使用loop element和group element属性.我不明白它是如何工作的,文档没有谈到这一点.
该组件tWriteJSONField链接到a tExtractJSONFields以便id从JSON中提取.我需要知道每个记录JSON必须链接.
tExtractJSONFields配置:XPath请求
"/path"
Run Code Online (Sandbox Code Playgroud)
tExtractJSONFields配置:映射
-----------------------------------------------
| column | XPath request | get nodes ? |
-----------------------------------------------
| idForm | "id" | false |
-----------------------------------------------
| jsonStructure | "*" | yes |
-----------------------------------------------
Run Code Online (Sandbox Code Playgroud)
我的问题是jsonStructure输出tExtractJSONField,我只得到我的root标签的第一个孩子.在我的情况下jsonStructure看起来像这样:
{
"id": "123"
}
Run Code Online (Sandbox Code Playgroud)
预期结果是: …
我是TalendETL的新手,我正在使用Talend Open Studio for Big Data 5.4.1版.我开发了一个简单的Talend ETL作业,它从csv文件中获取数据并将数据插入到我的本地Oracle数据库中.以下是我的包的样子:

该作业返回一个异常,该异常ArrayIndexOutOfBounds位于csv文件的最后一条记录之后.但我不确定为什么它应该首先归还?我查看了此链接上给出的解决方案:http://www.talendforge.org/forum/viewtopic.php?id = 21644
但它似乎根本不起作用.我有oracle组件的最新驱动程序,增加/减少提交大小似乎不会影响它.
有人可以帮我解决这个问题吗?如果需要更多信息,请告诉我.
PS:完整的错误日志如下: -
Starting job Kaggle_Data_Load_Training at 09:31 25/06/2014.
[statistics] connecting to socket on port 3957
[statistics] connected
Exception in component tOracleOutput_1
java.lang.ArrayIndexOutOfBoundsException: -32203
at oracle.jdbc.driver.OraclePreparedStatement.setupBindBuffers(OraclePreparedStatement.java:2677)
at oracle.jdbc.driver.OraclePreparedStatement.executeBatch(OraclePreparedStatement.java:9270)
at oracle.jdbc.driver.OracleStatementWrapper.executeBatch(OracleStatementWrapper.java:210)
at test.kaggle_data_load_training_0_1.Kaggle_Data_Load_Training.tFileInputDelimited_1Process(Kaggle_Data_Load_Training.java:4360)
at test.kaggle_data_load_training_0_1.Kaggle_Data_Load_Training.runJobInTOS(Kaggle_Data_Load_Training.java:4717)
at test.kaggle_data_load_training_0_1.Kaggle_Data_Load_Training.main(Kaggle_Data_Load_Training.java:4582)
[statistics] disconnected
Job Kaggle_Data_Load_Training ended at 09:31 25/06/2014. [exit code=1]
Run Code Online (Sandbox Code Playgroud) 我在Talend设计了一份工作.这项工作是从数据库中获取数据并将其转换为json,并在服务器上上传该json.我想为我的工作编写测试用例,就像我们在java项目中编写单元测试一样.我已经搜索了很多关于如何为talend作业编写测试用例但是没有找到任何东西.如果有人知道如何测试talend工作请建议.
我是talend的新手,并从已离开公司的人那里继承了一些项目.我无法弄清楚如何打开作业并进行编辑.我下载并正在运行Talend DI.当我尝试导入项目时,我收到了消息."所选文件夹不是Talend Open Studio项目."
项目文件看起来像这样.( - 代表一个文件夹)
-项目名
-lib
jobinfo.properties
有人能指出我正确的方向.
谢谢
他们似乎做了或多或少相同的事情 - 获取数据,处理数据并将其发送出去.
互联网搜索结果显示,Talend Routes几乎与Camel Routes相同,但这并没有说明它们是什么以及它们与Jobs有何不同.
Talend ESB的路线和工作是什么?他们之间有什么区别?何时比较喜欢一个?
我通过谷歌搜索了解到 Snowwflake 可以从 AWS-S3、Google Storage 和 Azure 中放入/获取数据。Snowflake 也有自己的数据库和表格。我有以下问题,
talend ×10
etl ×3
greenplum ×1
hawq ×1
java ×1
jobs ×1
json ×1
routes ×1
snowflake-cloud-data-platform ×1
sql-server ×1
unit-testing ×1
upsert ×1