标签: etl

使用C#导入平面文件的最佳第三方组件是什么?

只是寻找一个可以通过编程方式调用的组件,以一种非常简单的方式导入平面数据文件.数据通常为100,000-500,000行,每行包含大约200个字段的文本,长度约为5到250个字符.数据可以是CSV,制表符分隔等.

这有一些预算,但如果可能的话,我希望保持相当便宜.

etl flat-file data-import

0
推荐指数
1
解决办法
362
查看次数

SSIS 2008对行计数和脚本组件使用相同的变量

我有一个行计数组件,它使用全局变量X来存储数字; 到目前为止,它规则但是如果我在其ReadOnly变量中添加一个脚本组件,然后在其中使用它出于某种目的,流程会暂停一段时间然后崩溃说行数需要一个有效的变量.

是不是可以将行计数存储在变量中,然后从脚本comp中读取此变量.?

ssis etl sql-server-2008 sql-server-2008-r2 business-intelligence

0
推荐指数
1
解决办法
5240
查看次数

SSIS需要带有2个列标题的平面文件输出相同

我正在尝试使用SSIS平面文件目标,但是无法解决使输出文件具有命名为同一事物的两列的问题。

我要求输出文件具有列标题:

first1, last1, email, shortname, email
Run Code Online (Sandbox Code Playgroud)

每当我尝试映射源数据时,都会收到错误消息,提示诸如“此列名称已存在”和“有多个数据源列,名称为”电子邮件”之类的信息。

最好的解决方法是什么?

谢谢

ssis etl dataflow flat-file

0
推荐指数
1
解决办法
2936
查看次数

Java ETL过程

我有一个新的挑战是从Oracle数据库加载~100M行并将它们插入远程MySQL数据库服务器.

我把问题分成两部分:

  1. 服务器端REST服务器,负责将数据加载到MySQL服务器;
  2. 负责加载Oracle数据源的客户端Java应用程序.

在Java端,我使用普通JDBC来加载分页内容并通过线路将其传输到服务器.这种方法运行良好,但它使代码繁琐且不易扩展,因为我正在使用Oracle的ROWNUM ..... WHERE ROWNUM> x和ROWNUM <y进行分页.

我现在尝试了Hibernate的StatelessSession,我的实体通过Annotations映射.代码更具可读性和清晰性,但性能更差.

我听说过ETL工具和SpringBatch,但我对它们并不了解.还有其他方法可以解决这个问题吗?

提前致谢.

UPDATE

感谢您提供宝贵的建议.我选择使用SpringBatch从Oracle数据库加载数据,因为环境非常紧张,我无法访问Oracle的工具集.SpringBatch是真实的.对于数据写入步骤,我选择使用MySQL的LOAD DATA INFILE编写大量的记录.REST服务位于中间,因为出于安全原因它们彼此隐藏.

java etl hibernate jdbc

0
推荐指数
1
解决办法
3783
查看次数

填充函数(Python)string.zfill

我想更改下面的Python函数,以涵盖我的business_code需要填充的所有情况.该string.zfill直到达到给定的宽度,但我从来没有使用过它的Python函数处理此异常,填充到左边.

 #function for formating business codes
def formatBusinessCodes(code):
    """ Function that formats business codes.  Pass in a business code which will convert to a string with 6 digits """
    busCode=str(code)
    if len(busCode)==1:
        busCode='00000'+busCode
    elif len(busCode)==2:
        busCode='0000'+busCode
    else:
        if len(busCode)==3:
            busCode='000'+busCode
    return busCode

#pad extra zeros 
df2['business_code']=df2['business_code'].apply(lambda x: formatBusinessCodes(x))
businessframe['business_code']=businessframe['business_code'].apply(lambda x: formatBusinessCodes(x))
financialframe['business_code']=financialframe['business_code'].apply(lambda x: formatBusinessCodes(x))
Run Code Online (Sandbox Code Playgroud)

上面的代码处理长度为6的business_code,但我发现business_codes的长度变化<和> 6.我正在逐个状态地验证数据.每个州的business_code长度都不同(IL-6 len,OH-8 len).所有代码必须均匀填充.所以10的IL代码应该生成000010等.我需要处理所有异常.使用命令行解析参数(argparse)和string.zfill.

python etl pandas

0
推荐指数
1
解决办法
3773
查看次数

使用哪种ETL工具?

我使用Oracle作为数据库.我们决定使用另一个数据库,需要使用ETL工具将数据从oracle转换为该数据库.

我从来没有在任何ETL工具中工作,也不知道它.在google上做了一些搜索之后,我找到了一些像Pentaho,Clover,Talend等工具.但是,即使阅读了这些工具,我也无法决定哪一个用?

有人可以告诉我或给我任何有用的链接,这些链接描述哪个是更好的工具开始,更容易使用和良好的性能.

感谢您的帮助.

etl pentaho talend cloveretl

0
推荐指数
1
解决办法
7214
查看次数

使用Integration Service合并数据

请考虑以下情况:

我的数据库中有一个表.我想使用SSIS在我的OLAP数据库中移动这些数据.我可以将所有记录从我的表移动到OLAP数据库.问题是我不知道如何在OLAP环境中应用更改.例如,如果我的表只有100条记录我改变了如何应用这些更改而不是从头开始复制所有记录.

我如何合并这两张桌子?

谢谢

sql sql-server ssis etl business-intelligence

0
推荐指数
1
解决办法
414
查看次数

将两个csv文件合并到pentaho勺子中的一个csv文件中

我想将多个CSV文件合并到pentaho勺子中的一个CSV文件中.例如

file1.txt有值

姓名,地址

美国广播公司,浦那

file2.txt有值

电子邮件,年龄

ABC @ gmail.com,25

现在我希望输出在一个csv文件中

姓名,地址,电子邮件,年龄

请在这件事上给予我帮助..

csv etl pentaho

0
推荐指数
1
解决办法
4718
查看次数

Apache NiFi 1.5无法启动-无法设置权限

我已经以几种不同的方式看到了相同的问题。但是,发布的解决方案与我的问题无关,或者根本没有发布任何解决方案。

Apache Nifi 1.5

Java JDK 9.0.4 -NiFi支持此版本吗?

JAVA_HOME=C:\Program Files\Java\jdk-9.0.4

我有一个想法,也许Apache NiFi不能与JDK 9.0.4版本一起使用,但是我找不到任何说明JDK Apache NiFi兼容的JDK版本的文档,所以我认为这无关紧要。

从中我可以看到nifi-app.lognifi-bootstrap.log文件中的警告和错误均与“权限”相关。另一个可能的原因(猜测)可能是由于security propertiesnifi.properties文件。我设置了,nifi.sensitive.propr.key但是看到了另一个我未设置的属性:nifi.sensitive.props.key.protected

我已将两个日志文件的内容放在下面,因为该nifi-user.log文件中没有任何内容:

nifi-app.log

2018-03-20 14:29:01,599 INFO [main] org.apache.nifi.NiFi Launching NiFi...
2018-03-20 14:29:01,795 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Determined default nifi.properties path to be 'C:\NIFI-1~1.0\.\conf\nifi.properties'
2018-03-20 14:29:01,799 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Loaded 144 properties from C:\NIFI-1~1.0\.\conf\nifi.properties
2018-03-20 14:29:01,806 INFO [main] org.apache.nifi.NiFi Loaded 144 properties
2018-03-20 14:29:01,902 INFO [main] org.apache.nifi.BootstrapListener Started Bootstrap Listener, Listening for …
Run Code Online (Sandbox Code Playgroud)

etl apache-nifi

0
推荐指数
1
解决办法
1491
查看次数

哪个开源框架最适合 ETL Apache Airflow 或 Apache Beam?

我正在尝试使用开源框架进行 ETL,我听说过两种东西 Apache Beam 和 Apache Airflow,其中一种最适合整个 ETL 或 ELT,例如 Talend、Azure 数据工厂等,事实上,我尝试使用云数据仓库(redshift、azure 数据仓库、雪花等)完成所有工作,哪一个适合此类工作,如果我对这两个框架进行一些比较,那就太好了。提前致谢。

etl apache-spark pyspark airflow apache-beam

0
推荐指数
1
解决办法
1698
查看次数

Redshift 加载数据问题:Redshift 表不支持指定类型或函数(每个 INFO 消息一个)

SELECT s.store_id    AS store_key,
       s.store_id,
       a.address,
       a.address2,
       a.district,
       c.city,
       co.country,
       a.postal_code,
       st.first_name AS manager_first_name,
       st.last_name  AS manager_last_name,
       now()         AS start_date,
       now()         AS end_date
FROM staging_store s
JOIN staging_staff st   ON (s.manager_staff_id = st.staff_id)
JOIN staging_address a  ON (s.address_id = a.address_id)
JOIN staging_city c     ON (a.city_id = c.city_id)
JOIN staging_country co ON (c.country_id = co.country_id)

Run Code Online (Sandbox Code Playgroud)

我正在尝试使用上面的查询将我的 pagila 数据加载到 Redshift 中,但遇到了这个错误。到处找遍了,还是没找到解决办法。

[Amazon](500310) Invalid operation: Specified types or functions (one per INFO message) not supported on Redshift tables.;
Run Code Online (Sandbox Code Playgroud)

这是什么意思以及如何解决?

etl amazon-web-services amazon-redshift

0
推荐指数
1
解决办法
3413
查看次数

RDB2RDF工具的优缺点是什么?

我需要知道RDB2RDF工具之间的区别。谁能告诉我RDB2RDF工具的优缺点是什么?特别适用于以下几种:Virtuoso,Ultrawrap,Ontop,Morph,Xsparql,D2RQ等。

rdf etl semantic-web sparql r2rml

-1
推荐指数
1
解决办法
866
查看次数

一起运行多个 .dtsx 文件

我在一个 ssis 包下有三个不同的.dtsx包。如何通过单击执行所有三个,而不必打开每个 dtsx 文件并分别执行它们

sql-server ssis etl ssis-2012 sql-server-data-tools

-1
推荐指数
1
解决办法
1392
查看次数