我有一个大约 1M 行和大约 20 列的数据框。我希望将这些列合并为一列;在同一唯一标识符列下。
为了说明这一点,这是原始数据:
ID Column 2 Column 3
0 1001 B A
1 1002 C D
2 1003 E E
3 1004 G H
Run Code Online (Sandbox Code Playgroud)
期望的结果:
ID Merged
0 1001 B
1 1001 A
2 1002 C
3 1002 D
4 1003 E
5 1003 E
6 1004 G
7 1004 H
Run Code Online (Sandbox Code Playgroud)
由于我想要合并大约 20 列;我需要通过循环合并它们。我使用了下面的代码,但总是出现内存错误。
master = pd.DataFrame()
for col in original_df: # original_df is the dataframe combining the 20 columns
if col != 'ID':
temp = pd.DataFrame() …Run Code Online (Sandbox Code Playgroud) 我有一个包含数千行的数据帧; 在每一行中,一些值是重复的.我想删除这些重复项,只保留唯一值.
为了说明,这是原始数据:
Column 1 Column 2 Column 3
0 A B A
1 D C C
2 E E E
3 F G H
Run Code Online (Sandbox Code Playgroud)
成:
Column 1 Column 2 Column 3
0 A B
1 D C
2 E
3 F G H
Run Code Online (Sandbox Code Playgroud)
我尝试过应用df.drop_duplicates,但它会在列而不是行中删除重复值.