另一栏的“之前见过”栏

Question

考虑以下数据框：

是否有一种方便的方法（无需迭代行）来创建一个列，该列代表“之前看到”的每个值 column a。例如，该示例所需的输出是（0 表示以前没有见过，1 表示以前见过）：

如果这是可能的，是否有一种方法可以通过以前出现的次数而不仅仅是二进制指示器来增强它？

Answer 1

应该就是.duplicated()（参见文档）。然后，如果您想将其转换为 0 和 1 的整数，而不是Falseand ，您可以在输出上True使用：.astype(int)

从pd.DataFrame：

df.duplicated(subset="a").astype(int)
0    0
1    1
2    0
3    0
4    0
5    0
6    1
dtype: int32

从pd.Series：

df["a"].duplicated().astype(int)
0    0
1    1
2    0
3    0
4    0
5    0
6    1
Name: a, dtype: int32

这将标记一个值第一次被“视为”为False，以及所有已被“视为”为的后续值True。int通过将其强制为数据类型astype将更改False -> 0并且True -> 1