标签: etl

感谢您提供宝贵的建议.我选择使用SpringBatch从Oracle数据库加载数据,因为环境非常紧张,我无法访问Oracle的工具集.SpringBatch是真实的.对于数据写入步骤,我选择使用MySQL的LOAD DATA INFILE编写大量的记录.REST服务位于中间,因为出于安全原因它们彼此隐藏.

java etl hibernate jdbc

Jor*_*lva

2011 10-30

0
推荐指数

1
解决办法

3783
查看次数

填充函数(Python)string.zfill

我想更改下面的Python函数,以涵盖我的business_code需要填充的所有情况.该string.zfill直到达到给定的宽度,但我从来没有使用过它的Python函数处理此异常,填充到左边.

 #function for formating business codes
def formatBusinessCodes(code):
    """ Function that formats business codes.  Pass in a business code which will convert to a string with 6 digits """
    busCode=str(code)
    if len(busCode)==1:
        busCode='00000'+busCode
    elif len(busCode)==2:
        busCode='0000'+busCode
    else:
        if len(busCode)==3:
            busCode='000'+busCode
    return busCode

#pad extra zeros 
df2['business_code']=df2['business_code'].apply(lambda x: formatBusinessCodes(x))
businessframe['business_code']=businessframe['business_code'].apply(lambda x: formatBusinessCodes(x))
financialframe['business_code']=financialframe['business_code'].apply(lambda x: formatBusinessCodes(x))

Run Code Online (Sandbox Code Playgroud)

上面的代码处理长度为6的business_code,但我发现business_codes的长度变化<和> 6.我正在逐个状态地验证数据.每个州的business_code长度都不同(IL-6 len,OH-8 len).所有代码必须均匀填充.所以10的IL代码应该生成000010等.我需要处理所有异常.使用命令行解析参数(argparse)和string.zfill.

python etl pandas

Ton*_*one

2016 04-28

0
推荐指数

1
解决办法

3773
查看次数

使用哪种ETL工具？

我使用Oracle作为数据库.我们决定使用另一个数据库,需要使用ETL工具将数据从oracle转换为该数据库.

我从来没有在任何ETL工具中工作,也不知道它.在google上做了一些搜索之后,我找到了一些像Pentaho,Clover,Talend等工具.但是,即使阅读了这些工具,我也无法决定哪一个用？

有人可以告诉我或给我任何有用的链接,这些链接描述哪个是更好的工具开始,更容易使用和良好的性能.

感谢您的帮助.

etl pentaho talend cloveretl

Ana*_*and

2014 02-21

0
推荐指数

1
解决办法

7214
查看次数

使用Integration Service合并数据

请考虑以下情况:

我的数据库中有一个表.我想使用SSIS在我的OLAP数据库中移动这些数据.我可以将所有记录从我的表移动到OLAP数据库.问题是我不知道如何在OLAP环境中应用更改.例如,如果我的表只有100条记录我改变了如何应用这些更改而不是从头开始复制所有记录.

我如何合并这两张桌子？

谢谢

sql sql-server ssis etl business-intelligence

Ari*_*ian

lucky-day

0
推荐指数

1
解决办法

414
查看次数

将两个csv文件合并到pentaho勺子中的一个csv文件中

我想将多个CSV文件合并到pentaho勺子中的一个CSV文件中.例如

file1.txt有值

姓名,地址

美国广播公司,浦那

file2.txt有值

电子邮件,年龄

ABC @ gmail.com,25

现在我希望输出在一个csv文件中

姓名,地址,电子邮件,年龄

请在这件事上给予我帮助..

csv etl pentaho

Nei*_*eil

lucky-day

0
推荐指数

1
解决办法

4718
查看次数

Apache NiFi 1.5无法启动-无法设置权限

我已经以几种不同的方式看到了相同的问题。但是，发布的解决方案与我的问题无关，或者根本没有发布任何解决方案。

Apache Nifi 1.5

Java JDK 9.0.4 -NiFi支持此版本吗？

JAVA_HOME=C:\Program Files\Java\jdk-9.0.4

我有一个想法，也许Apache NiFi不能与JDK 9.0.4版本一起使用，但是我找不到任何说明JDK Apache NiFi兼容的JDK版本的文档，所以我认为这无关紧要。

从中我可以看到nifi-app.log和nifi-bootstrap.log文件中的警告和错误均与“权限”相关。另一个可能的原因（猜测）可能是由于security properties中nifi.properties文件。我设置了，nifi.sensitive.propr.key但是看到了另一个我未设置的属性：nifi.sensitive.props.key.protected。

我已将两个日志文件的内容放在下面，因为该nifi-user.log文件中没有任何内容：

nifi-app.log

2018-03-20 14:29:01,599 INFO [main] org.apache.nifi.NiFi Launching NiFi...
2018-03-20 14:29:01,795 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Determined default nifi.properties path to be 'C:\NIFI-1~1.0\.\conf\nifi.properties'
2018-03-20 14:29:01,799 INFO [main] o.a.nifi.properties.NiFiPropertiesLoader Loaded 144 properties from C:\NIFI-1~1.0\.\conf\nifi.properties
2018-03-20 14:29:01,806 INFO [main] org.apache.nifi.NiFi Loaded 144 properties
2018-03-20 14:29:01,902 INFO [main] org.apache.nifi.BootstrapListener Started Bootstrap Listener, Listening for …

Run Code Online (Sandbox Code Playgroud)

etl apache-nifi

Cod*_*ice

lucky-day

0
推荐指数

1
解决办法

1491
查看次数

哪个开源框架最适合 ETL Apache Airflow 或 Apache Beam？

我正在尝试使用开源框架进行 ETL，我听说过两种东西 Apache Beam 和 Apache Airflow，其中一种最适合整个 ETL 或 ELT，例如 Talend、Azure 数据工厂等，事实上，我尝试使用云数据仓库（redshift、azure 数据仓库、雪花等）完成所有工作，哪一个适合此类工作，如果我对这两个框架进行一些比较，那就太好了。提前致谢。

etl apache-spark pyspark airflow apache-beam

Sar*_*j K

lucky-day

0
推荐指数

1
解决办法

1698
查看次数

Redshift 加载数据问题：Redshift 表不支持指定类型或函数（每个 INFO 消息一个）

SELECT s.store_id    AS store_key,
       s.store_id,
       a.address,
       a.address2,
       a.district,
       c.city,
       co.country,
       a.postal_code,
       st.first_name AS manager_first_name,
       st.last_name  AS manager_last_name,
       now()         AS start_date,
       now()         AS end_date
FROM staging_store s
JOIN staging_staff st   ON (s.manager_staff_id = st.staff_id)
JOIN staging_address a  ON (s.address_id = a.address_id)
JOIN staging_city c     ON (a.city_id = c.city_id)
JOIN staging_country co ON (c.country_id = co.country_id)

Run Code Online (Sandbox Code Playgroud)

我正在尝试使用上面的查询将我的 pagila 数据加载到 Redshift 中，但遇到了这个错误。到处找遍了，还是没找到解决办法。

[Amazon](500310) Invalid operation: Specified types or functions (one per INFO message) not supported on Redshift tables.;

Run Code Online (Sandbox Code Playgroud)

这是什么意思以及如何解决？

etl amazon-web-services amazon-redshift

wyn*_*wyn

2020 07-04

0
推荐指数

1
解决办法

3413
查看次数

RDB2RDF工具的优缺点是什么？

我需要知道RDB2RDF工具之间的区别。谁能告诉我RDB2RDF工具的优缺点是什么？特别适用于以下几种：Virtuoso，Ultrawrap，Ontop，Morph，Xsparql，D2RQ等。

rdf etl semantic-web sparql r2rml

raw*_* az

2017 08-07

-1
推荐指数

1
解决办法

866
查看次数

一起运行多个 .dtsx 文件

我在一个 ssis 包下有三个不同的.dtsx包。如何通过单击执行所有三个，而不必打开每个 dtsx 文件并分别执行它们

sql-server ssis etl ssis-2012 sql-server-data-tools

kat*_*y89

2017 12-17

-1
推荐指数

1
解决办法

1392
查看次数

标签统计

etl ×13

ssis ×4

business-intelligence ×2

flat-file ×2

pentaho ×2

sql-server ×2

airflow ×1

amazon-redshift ×1

amazon-web-services ×1

apache-beam ×1

apache-nifi ×1

apache-spark ×1

cloveretl ×1

csv ×1

data-import ×1

dataflow ×1

hibernate ×1

java ×1

jdbc ×1

pandas ×1

pyspark ×1

python ×1

r2rml ×1

rdf ×1

semantic-web ×1

sparql ×1

sql ×1

sql-server-2008 ×1

sql-server-2008-r2 ×1

sql-server-data-tools ×1

ssis-2012 ×1

talend ×1

nifi-app.log

标签 统计

标签统计