我有一个数据框,其中包含以下几列
Record Type Value
100 1,2,3,4,5
200 0,10
300 1
Run Code Online (Sandbox Code Playgroud)
预期成绩:
list1 = [1,2,3,4,5]
我有下面的 pyspark 数据框。
Column_1 Column_2 Column_3 Column_4
1 A U1 12345
1 A A1 549BZ4G
Run Code Online (Sandbox Code Playgroud)
预期输出:
对第 1 列和第 2 列进行分组。收集设置的第 3 列和第 4 列,同时保留输入数据帧中的顺序。它应该与输入的顺序相同。第 3 列和第 4 列之间的排序不存在依赖性。两者都必须保留输入数据帧排序
Column_1 Column_2 Column_3 Column_4
1 A U1,A1 12345,549BZ4G
Run Code Online (Sandbox Code Playgroud)
到目前为止我尝试过的:
我首先尝试使用窗口方法。我按第 1 列和第 2 列进行分区,并按第 1 列和第 2 列进行排序。然后按第 1 列和第 2 列进行分组,并在第 3 列和第 4 列上进行收集集。
我没有得到预期的输出。我的结果如下。
Column_1 Column_2 Column_3 Column_4
1 A U1,A1 549BZ4G,12345
Run Code Online (Sandbox Code Playgroud)
我还尝试使用单调递增的 id 创建索引,然后按索引排序,然后进行分组并收集集合以获取输出。但仍然没有运气。
是由于字母数字和数值吗?如何保留输入中第 3 列和第 4 列的顺序,而不更改顺序。
我有 2 个数据框,如下所示。
数据框 1(只有列名,没有数据):
Name Age Gender
Run Code Online (Sandbox Code Playgroud)
0 行 * 3 列
Dataframe 2(数据超过 1000 行):
level_1 level_2 level_3
AAA 26 M
BBB 19 F
CCC 24 F
Run Code Online (Sandbox Code Playgroud)
1000 行 * 3 列
我必须附加上述两个数据框。
预期输出
数据框1
Name Age Gender
AAA 26 M
BBB 19 F
CCC 24 F
Run Code Online (Sandbox Code Playgroud)
到目前为止我尝试过的:
dataframe_1 = dataframe_1.append(dataframe_2,ignore_index = True)
Run Code Online (Sandbox Code Playgroud)
这给了我以下输出:
Name Age Gender level_1 level_2 level_3
NaN NaN NaN AAA 26 M
NaN NaN NaN BBB 19 F
NaN NaN NaN CCC 24 F …Run Code Online (Sandbox Code Playgroud) 我有下面的数据框,我正在尝试对其进行分组和聚合数据。
Column_1 Column_2 Column_3
A N1 P1
A N2 P2
A N3 P3
B N1 P1
C N1 P1
C N2 P2
Run Code Online (Sandbox Code Playgroud)
所需输出:
Column_1 Column_2 Column_3
A N1,N2,N3 P1,P2,P3
B N1 P1
C N1,N2 P1,P2
Run Code Online (Sandbox Code Playgroud)
我可以通过使用分区和分组创建一个窗口来完成一列的操作。然后我在窗口上使用收集列表和分组并聚合以获得一列。这适用于一列。
如何在 2 列上执行相同的操作。请帮忙
我正在 pyspark 数据框中的一列上进行分组,并在另一列上执行收集列表以获取 column_1 的所有可用值。如下。
Column_1 Column_2
A Name1
A Name2
A Name3
B Name1
B Name2
C Name1
D Name1
D Name1
D Name1
D Name1
Run Code Online (Sandbox Code Playgroud)
我得到的输出是列_2 的收集列表,其中列_1 分组。
Column_1 Column_2
A [Name1,Name2,Name3]
B [Name1,Name2]
C [Name1]
D [Name1,Name1,Name1,Name1]
Run Code Online (Sandbox Code Playgroud)
现在,当收集列表中的所有值都相同时,我只想仅显示一次而不是四次。以下是预期输出。
预期输出:
Column_1 Column_2
A [Name1,Name2,Name3]
B [Name1,Name2]
C [Name1]
D [Name1]
Run Code Online (Sandbox Code Playgroud)
有没有办法在 pyspark 中做到这一点?
我在 shell 脚本中使用以下 curl 命令连接到 SFTP 远程目录。
curl -k "sftp://url.test.com/test_folder" --user "username:password"
Run Code Online (Sandbox Code Playgroud)
有没有办法列出目录 test_folder 中的文件。
我有一个 Pandas 数据框,其中有一列可以包含整数、浮点数、字符串等。我想遍历所有行并检查每个值是否为整数,如果不是,我想创建一个包含错误值(值)的列表不是整数)
我尝试过 isnumeric(),但无法遍历每一行并将错误写入输出。我尝试使用 iterrows() 但它将所有值转换为浮点数。
ID Field1
1 1.15
2 2
3 1
4 25
5 and
Run Code Online (Sandbox Code Playgroud)
预期结果:
[1.15,"and"]
Run Code Online (Sandbox Code Playgroud) 我的 spark 数据框中有两列
First_name Last_name
Shiva Kumar
Karthik kumar
Shiva Null
Null Shiva
Run Code Online (Sandbox Code Playgroud)
我的要求是通过用逗号连接上述两列并处理空值来向数据帧添加一个新列。
我曾尝试使用 concat 和 coalesce,但只有当两列都可用时,我才能获得带有逗号分隔符的输出
预期输出
Full_name
Shiva,kumar
Karthik,kumar
Shiva
Shiva
Run Code Online (Sandbox Code Playgroud)