我在Talend中有一个进程,它获取页面的搜索结果,保存html并将其写入文件,如下所示:

最初我有一个两步过程,用Java解析HTML文件中的日期.这是代码:它工作并将其写入mysql数据库.这是基本上完全正确的代码.(我是初学者,抱歉缺乏优雅)
package org.jsoup.examples;
import java.io.*;
import org.jsoup.*;
import org.jsoup.nodes.*;
import org.jsoup.select.Elements;
import java.io.IOException;
public class parse2 {
static parse2 parseIt2 = new parse2();
String companyName = "Platzhalter";
String jobTitle = "Platzhalter";
String location = "Platzhalter";
String timeAdded = "Platzhalter";
public static void main(String[] args) throws IOException {
parseIt2.getData();
}
//
public void getData() throws IOException {
Document document = Jsoup.parse(new File("C:/Talend/workspace/WEBCRAWLER/output/keywords_SOA.txt"), "utf-8");
Elements elements = document.select(".joblisting");
for (Element element : elements) {
// Parse Data into Elements
Elements jobTitleElement …Run Code Online (Sandbox Code Playgroud) 我有一个要求,我需要更改(添加2列),然后更新同一个表.
这是我试过的查询:
ALTER TABLE A
ADD c1 int,c2 varchar(10)
UPDATE A set c1 = 23, c2 = 'ZZXX'
Run Code Online (Sandbox Code Playgroud)
我需要一次运行上面两个查询.
我正在使用Talend ETL工具,在这里我们有一个组件tMssqlrow,它允许我们运行多个查询(我在单个组件中使用10到15个更新查询).
但上面的查询不起作用.
我在DataBase Microsoft SQL中测试过.我收到以下错误:
Msg 207,Level 16,State 1,Line 5
列名称"c1"无效.消息207,
16级,1号,5号线
列名称"c2"无效.
任何人都可以帮我解决这个问题.
我需要使用带有SVN的Talend Open Studio.我应该在存储库中放置什么文件夹?
我想在Talend中写入DB时执行事务,但不知道如何.我从调色板尝试了各种组件,但无法设法执行.我将不胜感激任何帮助,甚至更好的任何与此主题相关的教程.
谢谢!
假设您有一个小项目,表面看起来像是Talend之类的ETL工具的良好匹配.
但进一步假设,你从未使用Talend,而且,你不相信"视觉编程"工具,而是宁愿用老式的方式编写所有东西(在一个漂亮的IDE上的文本!),并在适当的语言和支持的帮助下库.
有哪些语言模式和支持库可以帮助您远离ETL工具诱惑/陷阱?
如何将第三方库(jar文件)添加到Talend项目?
还有一个问题是,每个Talend component使用LogFactory,但在我的情况下,它是扔
java.lang.NoClassDefFoundError: org.apache.commons.logging.LogFactory
at ...
Run Code Online (Sandbox Code Playgroud)
使用tSetGlobalVar组件,如何利用现有的日志库来摆脱这种异常?
我在Talend中创建了一个在表中添加数据的ETL.
该表适用于旧系统,主键不是自动增量.每次我在表中插入一个值时,我必须得到最大id加一.
我正在尝试在表达式构建器中使用var:
然后在表达式构建器中:
Context.Max += 1
Run Code Online (Sandbox Code Playgroud)问题是,每次我得到相同的ID,我需要保存总和.
我正在为我们的运营商寻找前端来运行我们的Talend工作.我们不希望他有能力删除或修改工作.只运行它们并监控它们的结果.有关这方面工具的任何建议吗?
谢谢
在接下来的几周内,我的公司将与多家供应商合作,为共同的全球ETL工具建立一个选择 - 不一定是一个无法解决的工具,而只是我们的许可证投资将用于合并这些成本的地方.其中两个主要参与者是Talend和Informatica,其他一些因为这个问题而不重要.
我的经验是Talend的企业ETL工具Talend Integration Suite,它还具有许多标准集成功能.除了两者之间的所有明显的利弊,例如成本,知识资源的可用性等,我的问题是特定于所需的开发语言知识.
我想要一些关于Informatica选项的反馈.我可以从经验中说明要有效地使用Talend,并超出它的预编程范围(经常发生),你需要在Java中有一个像样的背景.在这种情况下,我的意思是直接使用Java - 如果需要附加功能,可以逐字使用Java,而不是Java的"特殊"版本.Informatica的情况如何?您可以使用特定的扩展语言吗?它是专有的,但可能与主流语言密切相关吗?有什么可能需要将它用于任何后果的工作?
这只是我将用于评估空间的一个因素,但在我完全了解情况之前,我需要在Informatica的这个方面加快一点速度.谢谢你的回答!
我使用Talend将数据加载到sql-server数据库中.
看来我工作中最薄弱的部分不是数据处理,而是数据库中的有效负载,不超过17行/秒.
有趣的一点是,我可以同时启动5个工作,并且它们都将以17个/秒的速度加载.
什么可以解释这种缓慢,我怎样才能提高速度?
谢谢
新信息:
我的桌面和服务器之间的传输速度大约是1MByte
我的工作每10 000工作一次
我使用sql server 2008 R2
我用于工作的模式是这样的:
