小编Pad*_*123的帖子

将 Pandas 数据框单元格转换为列表

我有一个数据框，其中包含以下几列

Record Type     Value
100             1,2,3,4,5
200             0,10
300             1

Run Code Online (Sandbox Code Playgroud)

预期成绩： list1 = [1,2,3,4,5]

python dataframe pandas

Pad*_*123

2019 05-19

5
推荐指数

1
解决办法

1万
查看次数

Pyspark - 保留多列上收集列表和收集集的顺序

我有下面的 pyspark 数据框。

Column_1 Column_2 Column_3 Column_4
1        A        U1       12345
1        A        A1       549BZ4G

Run Code Online (Sandbox Code Playgroud)

预期输出：

对第 1 列和第 2 列进行分组。收集设置的第 3 列和第 4 列，同时保留输入数据帧中的顺序。它应该与输入的顺序相同。第 3 列和第 4 列之间的排序不存在依赖性。两者都必须保留输入数据帧排序

Column_1 Column_2 Column_3 Column_4
1        A        U1,A1    12345,549BZ4G

Run Code Online (Sandbox Code Playgroud)

到目前为止我尝试过的：

我首先尝试使用窗口方法。我按第 1 列和第 2 列进行分区，并按第 1 列和第 2 列进行排序。然后按第 1 列和第 2 列进行分组，并在第 3 列和第 4 列上进行收集集。

我没有得到预期的输出。我的结果如下。

Column_1 Column_2 Column_3 Column_4
1        A        U1,A1    549BZ4G,12345

Run Code Online (Sandbox Code Playgroud)

我还尝试使用单调递增的 id 创建索引，然后按索引排序，然后进行分组并收集集合以获取输出。但仍然没有运气。

是由于字母数字和数值吗？如何保留输入中第 3 列和第 4 列的顺序，而不更改顺序。

python group-by dataframe apache-spark pyspark

Pad*_*123

lucky-day

4
推荐指数

1
解决办法

5472
查看次数

将仅包含列名称的数据框附加到另一个包含数据的数据框

我有 2 个数据框，如下所示。

数据框 1（只有列名，没有数据）：

Name   Age   Gender

Run Code Online (Sandbox Code Playgroud)

0 行 * 3 列

Dataframe 2（数据超过 1000 行）：

level_1   level_2    level_3
AAA       26         M
BBB       19         F
CCC       24         F

Run Code Online (Sandbox Code Playgroud)

1000 行 * 3 列

我必须附加上述两个数据框。

预期输出

数据框1

Name   Age   Gender
AAA    26    M
BBB    19    F
CCC    24    F

Run Code Online (Sandbox Code Playgroud)

到目前为止我尝试过的：

dataframe_1 = dataframe_1.append(dataframe_2,ignore_index = True)

Run Code Online (Sandbox Code Playgroud)

这给了我以下输出：

Name   Age   Gender   level_1   level_2   level_3
NaN    NaN   NaN      AAA       26        M
NaN    NaN   NaN      BBB       19        F
NaN    NaN   NaN      CCC       24        F …

Run Code Online (Sandbox Code Playgroud)

python dataframe pandas

Pad*_*123

lucky-day

3
推荐指数

1
解决办法

1万
查看次数

Pyspark - Groupby 并收集多列列表并创建多列

我有下面的数据框，我正在尝试对其进行分组和聚合数据。

Column_1 Column_2 Column_3
A        N1       P1
A        N2       P2
A        N3       P3
B        N1       P1
C        N1       P1
C        N2       P2

Run Code Online (Sandbox Code Playgroud)

所需输出：

Column_1 Column_2 Column_3
A        N1,N2,N3 P1,P2,P3
B        N1       P1
C        N1,N2    P1,P2

Run Code Online (Sandbox Code Playgroud)

我可以通过使用分区和分组创建一个窗口来完成一列的操作。然后我在窗口上使用收集列表和分组并聚合以获得一列。这适用于一列。

如何在 2 列上执行相同的操作。请帮忙

python dataframe apache-spark pyspark

Pad*_*123

lucky-day

3
推荐指数

1
解决办法

5905
查看次数

Pyspark 收集列表

我正在 pyspark 数据框中的一列上进行分组，并在另一列上执行收集列表以获取 column_1 的所有可用值。如下。

Column_1 Column_2
A        Name1
A        Name2
A        Name3
B        Name1
B        Name2
C        Name1
D        Name1
D        Name1
D        Name1
D        Name1

Run Code Online (Sandbox Code Playgroud)

我得到的输出是列_2 的收集列表，其中列_1 分组。

Column_1 Column_2
A        [Name1,Name2,Name3]  
B        [Name1,Name2]
C        [Name1]
D        [Name1,Name1,Name1,Name1]

Run Code Online (Sandbox Code Playgroud)

现在，当收集列表中的所有值都相同时，我只想仅显示一次而不是四次。以下是预期输出。

预期输出：

Column_1 Column_2
A        [Name1,Name2,Name3]  
B        [Name1,Name2]
C        [Name1]
D        [Name1]

Run Code Online (Sandbox Code Playgroud)

有没有办法在 pyspark 中做到这一点？

dataframe apache-spark pyspark

Pad*_*123

2020 06-30

3
推荐指数

1
解决办法

4794
查看次数

卷曲到 SFTP 并列出目录中的文件

我在 shell 脚本中使用以下 curl 命令连接到 SFTP 远程目录。

curl -k "sftp://url.test.com/test_folder" --user "username:password"

Run Code Online (Sandbox Code Playgroud)

有没有办法列出目录 test_folder 中的文件。

shell sftp curl

Pad*_*123

lucky-day

2
推荐指数

1
解决办法

7490
查看次数

检查熊猫数据框列中的值是否为整数，如果不是则将其写入列表

我有一个 Pandas 数据框，其中有一列可以包含整数、浮点数、字符串等。我想遍历所有行并检查每个值是否为整数，如果不是，我想创建一个包含错误值（值）的列表不是整数）

我尝试过 isnumeric()，但无法遍历每一行并将错误写入输出。我尝试使用 iterrows() 但它将所有值转换为浮点数。

ID     Field1
1      1.15
2      2
3      1
4      25
5      and

Run Code Online (Sandbox Code Playgroud)

预期结果：

[1.15,"and"]

Run Code Online (Sandbox Code Playgroud)

python integer pandas

Pad*_*123

2019 05-22

1
推荐指数

1
解决办法

2万
查看次数

用空值连接两列火花数据框

我的 spark 数据框中有两列

First_name  Last_name
Shiva       Kumar
Karthik     kumar
Shiva       Null
Null        Shiva

Run Code Online (Sandbox Code Playgroud)

我的要求是通过用逗号连接上述两列并处理空值来向数据帧添加一个新列。

我曾尝试使用 concat 和 coalesce，但只有当两列都可用时，我才能获得带有逗号分隔符的输出

预期输出

Full_name
Shiva,kumar
Karthik,kumar
Shiva
Shiva

Run Code Online (Sandbox Code Playgroud)

concatenation apache-spark pyspark

Pad*_*123

lucky-day

1
推荐指数

1
解决办法

2087
查看次数

标签统计

dataframe ×5

python ×5

apache-spark ×4

pyspark ×4

pandas ×3

concatenation ×1

curl ×1

group-by ×1

integer ×1

sftp ×1

shell ×1

标签 统计

小编Pad_123的帖子

标签统计