小编shr*_*ads的帖子

是否可以从NiFi中的CSV文件标题名称中删除空格?

我有一个CSV文件,其中某些列名称中带有空格,而某些列名称中的字符之间没有空格。我想从所有具有空白的标题名称中删除空白。请帮忙。谢谢!

随附屏幕截图以供参考。示例:“名字”我想要“名字”

我正在使用ReplaceText处理器,其中在“搜索值”下我已传递\ s来仅搜索标题行的空白和作为空字符串的替换值。我的评估模式也是“逐行”。所以现在输出文件显示为FirstName,LastNameshraddha,srivastavsanstuti,srivastav,因此它以一行显示所有内容。我只希望从标题行中删除空格,并且根本不要触摸/合并数据值。

请告诉我如何删除它们。谢谢!

在此处输入图片说明

regex etl removing-whitespace apache-nifi

5
推荐指数
1
解决办法
1070
查看次数

删除 NiFi 中的重复项

我有一个流 QueryDatabaseTable->ConvertRecord->PutElasticseachHttpRecord 我想要做的是从 MySQL 数据库中获取完整数据并将其输入 Elasticsearch 以使用 Kibana 对其进行分析。但是,我的数据有如下重复的列:(以黑色突出显示是唯一的重复值)

ID、机器名称、值 1、值 2、日期

1, abc, 10, 34 , 2018-09-27 10:40:10

2, abc, 10, 34 , 2018-09-27 10:41:14

3, abc, 10, 34 , 2018-09-27 10:42:19

4, xyz, 12, 45, 2018-09-27 10:45:19

所以在我的表中 ID 是主键,时间戳字段不断更新。我想要实现的是仅获取特定Machine Name 的一条记录。下面的示例显示了我想要的输出表:

ID、机器名称、值 1、值 2、日期

1, 美国广播公司, 10, 34, 2018-09-27 10:40:10

4, xyz, 12, 45, 2018-09-27 10:45:19

我怎样才能在 NiFi 中实现这一点?目标是删除/删除重复的列。如果可能,请告诉我要使用哪个处理器以及要设置哪些配置?

我在 QueryRecord 处理器中收到以下错误: 查询记录错误

查询记录错误

查询记录错误2

任何建议都非常感谢。谢谢你

mysql apache duplicates apache-nifi

5
推荐指数
1
解决办法
3476
查看次数

从 NiFi 中的纪元中提取日期

我有一个 CSV 文件,其属性具有纪元值,例如“1517334599.906”。

我想通过 NiFi 将 Epoch 值转换/更新为 ISO 时间戳 'yyyy-MM-dd HH:mm:ss.SSS'。

该转换是为了让 Kibana 将该字段识别为时间戳。有没有办法做到这一点?如果有谁可以帮我配置一下吗?

regex apache elasticsearch kibana apache-nifi

3
推荐指数
1
解决办法
6013
查看次数

NIFI中使用putdatabaserecord将数据放入MySQL

我有一个流Getfile -> PutDatabaseRecord,我有一个包含如下字段的 CSV:

模块编号、位置、机器名称、机器类型

我想在我的数据库表“Test”中提取这些字段的值,该表的字段描述为:

Module_No,Pos,Machine_Name,Machine_Type

所以这里是字段名称的更改。在 Putdatabaserecord 中设置什么设置才能成功将数据摄取到 mysql 表中。

现在我收到错误,因为模块号不能为空。如何修复原始 CSV 和 MySQL 表中标题名称的这种更改。谢谢!

mysql apache apache-nifi

3
推荐指数
1
解决办法
2556
查看次数

ReplaceText处理器

我有一个属性名称EpochWithMicroSec和值为的CSV文件,1512520846我想000在值的末尾附加这样的内容1512520846000

我正在使用以下配置,请帮助解决此问题。TIA

我的配置是在CSV文件的最后一个属性后附加000。如何将其映射到属性EpochWithMicroSecattribute?

在此处输入图片说明

在此处输入图片说明

apache apache-nifi

1
推荐指数
1
解决办法
264
查看次数

如何从CSV文件中仅提取和路由指定的列并删除所有其他列

我想从CSV文件中提取一些字段及其值,然后删除/删除文件中的所有其他字段。请帮忙。我认为我们可以使用RoutText处理器。请告诉我如何编写仅对指定字段进行路由的正则表达式,并删除所有其他内容。谢谢

示例-从附带的快照中,我只想沿着机智命中值(每个记录/行)路由“名字,姓氏和兄弟姐妹”字段。删除其余的列,例如“州,年龄,住所编号,国家/地区,性别”。

请告诉我什么是正确的处理器,以及为了实现此目的而使用的配置属性。谢谢

逗号分隔的CSV文件快照

附加快照以供参考。

regex apache etl apache-nifi

1
推荐指数
1
解决办法
647
查看次数

如何在 NiFi 中安排 cron 作业每天凌晨 3 点运行

我有一个从 Presto 获取数据并执行一些 ETL 并将 CSV 文件推回到 s3 存储桶的流程。我的流程如下:

**QueryDatabaseTable -> convertRecord -> RouteText -> puts3Object** 
Run Code Online (Sandbox Code Playgroud)

我知道我们可以通过 cron 作业调度功能来实现这一点。这个想法是每天早上在 s3 存储桶中摄取新文件。

cron 语法是什么?我试过了0 0 3 1/1 * ? *,但似乎不是每天凌晨 3 点运行。有什么理由吗?

我怎样才能实现这个目标?

提前致谢!

cron minify crontrigger apache-nifi

0
推荐指数
1
解决办法
3801
查看次数