问题:
如何在 Pandas 数据框中分别考虑每一行(并可能用 NaN 替换它们),从每一行中删除重复的单元格值?
如果我们可以将所有新创建的 NaN 移到每一行的末尾,那就更好了。
参考:相关但不同的帖子:
例子:
import pandas as pd
df = pd.DataFrame({'a': ['A', 'A', 'C', 'B'],
'b': ['B', 'D', 'B', 'B'],
'c': ['C', 'C', 'C', 'A'],
'd': ['D', 'D', 'B', 'A']},
index=[0, 1, 2, 3])
Run Code Online (Sandbox Code Playgroud)
这创造了这个df:
| 一种 | 乙 | C | d | |
|---|---|---|---|---|
| 0 | 一种 | 乙 | C | D |
| 1 | 一种 | D | C | D |
| 2 … |
以下示例:
string1 = "calvin klein design dress calvin klein"
Run Code Online (Sandbox Code Playgroud)
我怎样才能删除第二个一式两份"calvin",并"klein"?
结果应该是这样的
string2 = "calvin klein design dress"
Run Code Online (Sandbox Code Playgroud)
只应删除第二个重复项,并且不应更改单词的顺序!