只是寻找一个可以通过编程方式调用的组件,以一种非常简单的方式导入平面数据文件.数据通常为100,000-500,000行,每行包含大约200个字段的文本,长度约为5到250个字符.数据可以是CSV,制表符分隔等.
这有一些预算,但如果可能的话,我希望保持相当便宜.
我有一个行计数组件,它使用全局变量X来存储数字; 到目前为止,它规则但是如果我在其ReadOnly变量中添加一个脚本组件,然后在其中使用它出于某种目的,流程会暂停一段时间然后崩溃说行数需要一个有效的变量.
是不是可以将行计数存储在变量中,然后从脚本comp中读取此变量.?
ssis etl sql-server-2008 sql-server-2008-r2 business-intelligence
我正在尝试使用SSIS平面文件目标,但是无法解决使输出文件具有命名为同一事物的两列的问题。
我要求输出文件具有列标题:
first1, last1, email, shortname, email
Run Code Online (Sandbox Code Playgroud)
每当我尝试映射源数据时,都会收到错误消息,提示诸如“此列名称已存在”和“有多个数据源列,名称为”电子邮件”之类的信息。
最好的解决方法是什么?
谢谢
我有一个新的挑战是从Oracle数据库加载~100M行并将它们插入远程MySQL数据库服务器.
我把问题分成两部分:
在Java端,我使用普通JDBC来加载分页内容并通过线路将其传输到服务器.这种方法运行良好,但它使代码繁琐且不易扩展,因为我正在使用Oracle的ROWNUM ..... WHERE ROWNUM> x和ROWNUM <y进行分页.
我现在尝试了Hibernate的StatelessSession,我的实体通过Annotations映射.代码更具可读性和清晰性,但性能更差.
我听说过ETL工具和SpringBatch,但我对它们并不了解.还有其他方法可以解决这个问题吗?
提前致谢.
UPDATE
感谢您提供宝贵的建议.我选择使用SpringBatch从Oracle数据库加载数据,因为环境非常紧张,我无法访问Oracle的工具集.SpringBatch是真实的.对于数据写入步骤,我选择使用MySQL的LOAD DATA INFILE编写大量的记录.REST服务位于中间,因为出于安全原因它们彼此隐藏.
我想更改下面的Python函数,以涵盖我的business_code需要填充的所有情况.该string.zfill直到达到给定的宽度,但我从来没有使用过它的Python函数处理此异常,填充到左边.
#function for formating business codes
def formatBusinessCodes(code):
""" Function that formats business codes. Pass in a business code which will convert to a string with 6 digits """
busCode=str(code)
if len(busCode)==1:
busCode='00000'+busCode
elif len(busCode)==2:
busCode='0000'+busCode
else:
if len(busCode)==3:
busCode='000'+busCode
return busCode
#pad extra zeros
df2['business_code']=df2['business_code'].apply(lambda x: formatBusinessCodes(x))
businessframe['business_code']=businessframe['business_code'].apply(lambda x: formatBusinessCodes(x))
financialframe['business_code']=financialframe['business_code'].apply(lambda x: formatBusinessCodes(x))
Run Code Online (Sandbox Code Playgroud)
上面的代码处理长度为6的business_code,但我发现business_codes的长度变化<和> 6.我正在逐个状态地验证数据.每个州的business_code长度都不同(IL-6 len,OH-8 len).所有代码必须均匀填充.所以10的IL代码应该生成000010等.我需要处理所有异常.使用命令行解析参数(argparse)和string.zfill.
我使用Oracle作为数据库.我们决定使用另一个数据库,需要使用ETL工具将数据从oracle转换为该数据库.
我从来没有在任何ETL工具中工作,也不知道它.在google上做了一些搜索之后,我找到了一些像Pentaho,Clover,Talend等工具.但是,即使阅读了这些工具,我也无法决定哪一个用?
有人可以告诉我或给我任何有用的链接,这些链接描述哪个是更好的工具开始,更容易使用和良好的性能.
感谢您的帮助.
请考虑以下情况:
我的数据库中有一个表.我想使用SSIS在我的OLAP数据库中移动这些数据.我可以将所有记录从我的表移动到OLAP数据库.问题是我不知道如何在OLAP环境中应用更改.例如,如果我的表只有100条记录我改变了如何应用这些更改而不是从头开始复制所有记录.
我如何合并这两张桌子?
谢谢
我想将多个CSV文件合并到pentaho勺子中的一个CSV文件中.例如
file1.txt有值
姓名,地址
美国广播公司,浦那
file2.txt有值
电子邮件,年龄
ABC @ gmail.com,25
现在我希望输出在一个csv文件中
姓名,地址,电子邮件,年龄
请在这件事上给予我帮助..
我已经以几种不同的方式看到了相同的问题。但是,发布的解决方案与我的问题无关,或者根本没有发布任何解决方案。
Apache Nifi 1.5
Java JDK 9.0.4 -NiFi支持此版本吗?
JAVA_HOME=C:\Program Files\Java\jdk-9.0.4
我有一个想法,也许Apache NiFi不能与JDK 9.0.4版本一起使用,但是我找不到任何说明JDK Apache NiFi兼容的JDK版本的文档,所以我认为这无关紧要。
从中我可以看到nifi-app.log和nifi-bootstrap.log文件中的警告和错误均与“权限”相关。另一个可能的原因(猜测)可能是由于security properties中nifi.properties文件。我设置了,nifi.sensitive.propr.key但是看到了另一个我未设置的属性:nifi.sensitive.props.key.protected。
我已将两个日志文件的内容放在下面,因为该nifi-user.log文件中没有任何内容:
2018-03-20 14:29:01,599 INFO [main] org.apache.nifi.NiFi Launching NiFi...
2018-03-20 14:29:01,795 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Determined default nifi.properties path to be 'C:\NIFI-1~1.0\.\conf\nifi.properties'
2018-03-20 14:29:01,799 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Loaded 144 properties from C:\NIFI-1~1.0\.\conf\nifi.properties
2018-03-20 14:29:01,806 INFO [main] org.apache.nifi.NiFi Loaded 144 properties
2018-03-20 14:29:01,902 INFO [main] org.apache.nifi.BootstrapListener Started Bootstrap Listener, Listening for …Run Code Online (Sandbox Code Playgroud) 我正在尝试使用开源框架进行 ETL,我听说过两种东西 Apache Beam 和 Apache Airflow,其中一种最适合整个 ETL 或 ELT,例如 Talend、Azure 数据工厂等,事实上,我尝试使用云数据仓库(redshift、azure 数据仓库、雪花等)完成所有工作,哪一个适合此类工作,如果我对这两个框架进行一些比较,那就太好了。提前致谢。
SELECT s.store_id AS store_key,
s.store_id,
a.address,
a.address2,
a.district,
c.city,
co.country,
a.postal_code,
st.first_name AS manager_first_name,
st.last_name AS manager_last_name,
now() AS start_date,
now() AS end_date
FROM staging_store s
JOIN staging_staff st ON (s.manager_staff_id = st.staff_id)
JOIN staging_address a ON (s.address_id = a.address_id)
JOIN staging_city c ON (a.city_id = c.city_id)
JOIN staging_country co ON (c.country_id = co.country_id)
Run Code Online (Sandbox Code Playgroud)
我正在尝试使用上面的查询将我的 pagila 数据加载到 Redshift 中,但遇到了这个错误。到处找遍了,还是没找到解决办法。
[Amazon](500310) Invalid operation: Specified types or functions (one per INFO message) not supported on Redshift tables.;
Run Code Online (Sandbox Code Playgroud)
这是什么意思以及如何解决?
我需要知道RDB2RDF工具之间的区别。谁能告诉我RDB2RDF工具的优缺点是什么?特别适用于以下几种:Virtuoso,Ultrawrap,Ontop,Morph,Xsparql,D2RQ等。
我在一个 ssis 包下有三个不同的.dtsx包。如何通过单击执行所有三个,而不必打开每个 dtsx 文件并分别执行它们
etl ×13
ssis ×4
flat-file ×2
pentaho ×2
sql-server ×2
airflow ×1
apache-beam ×1
apache-nifi ×1
apache-spark ×1
cloveretl ×1
csv ×1
data-import ×1
dataflow ×1
hibernate ×1
java ×1
jdbc ×1
pandas ×1
pyspark ×1
python ×1
r2rml ×1
rdf ×1
semantic-web ×1
sparql ×1
sql ×1
ssis-2012 ×1
talend ×1