小编bal*_*ika的帖子

NiFi:UpdateAttribute更改文件名

我使用GetHTTPS - > UpdateAttribute - > PutHDFS流程来读取API中的json文件,每次让我们说30秒并将文件放入HDFS.第二步使用当前日期/时间戳更改filename属性,以便我们没有相同的文件名冲突.

到目前为止我已经尝试过了:
${filename: prepend(${now():format("yyyy-MM-dd-HH:mm:ss")})}
这会导致:

ERROR PutHDFS由于java.lang.IllegalArgumentException:java.net,无法写入HDFS.URISyntaxException:绝对URI中的相对路径:.2017-08-01-11:01:13-filename.json

我不确定这个错误来自哪里,说实话,并且在错误消息中创建的文件名中的日期之前有一个点(.)根据用于添加文件名的表达式不应该存在.在第二步中没有任何文件名操作,一切都按预期工作.任何帮助都非常感谢,提前感谢!

hadoop apache-nifi

4
推荐指数
1
解决办法
6357
查看次数

Python:将目录和文件名存储为数据框列

我想读取在每个目录中有多个文件夹和文件的目录的内容,并将文件夹和文件名分配为数据框列的值。例如目录是“home”,其中每个目录中有几个文件夹和文件文件夹。对于该特定文件夹中存在的尽可能多的文件,将重复“文件夹”列。输出数据帧将是这样的:

Folder  File
a_folder a_file
a_folder b_file
a_folder c_file
b_folder aa_file
b_folder bb_File
b_folder cc_File
etc...
Run Code Online (Sandbox Code Playgroud)

到目前为止我正在尝试什么:

import os
import pandas as pd

folders = []
files = []
df = pd.DataFrame(columns=['Folder', 'File'])

for folder in sorted(os.listdir('home')):
    folders.append(folder)  
    for file in sorted(os.listdir('home/'+folder)):
        files.append(file)

df['Folder']=folders
df['File']=files
Run Code Online (Sandbox Code Playgroud)

但显然我的想法存在错误,因为我在值和索引长度之间出现了不匹配错误。我在这里缺少什么?提前致谢!

python directory file subdirectory pandas

3
推荐指数
1
解决办法
7543
查看次数

标签 统计

apache-nifi ×1

directory ×1

file ×1

hadoop ×1

pandas ×1

python ×1

subdirectory ×1