从 R 到 Python 的过渡：我的关卡去哪儿了？

Question

从 R 到 Python 的过渡：我的关卡去哪儿了？

如果我有这样的数据框

df = pd.DataFrame({'labels': ['A', 'B', 'C'], 'moreLabels': ['D','E','F'], 
'numbers': [1,2,3] })

Run Code Online (Sandbox Code Playgroud)

我想找出“moreLabels”的所有可能值，有没有一种简单的方法可以做到这一点？我正在旋转并列出数据透视表的列，如下所示：

pivot = df.pivot_table(values = 'numbers', index = 'labels', 
columns = 'moreLabels'
list(pivot.columns)

Run Code Online (Sandbox Code Playgroud)

，但这需要几个步骤，我想有一个整洁的方式来做到这一点

dataframe[column].levels()

Run Code Online (Sandbox Code Playgroud)

Answer 1

3no*_*vak 5

R 的levels()函数将列出变量的所有可能值，即使这些值不存在于数据框中。熊猫不会以这种方式行事。

> df <- data.table(moreLabels = c('D', 'E', 'F'), numbers = c(1, 2, 3))
> df[, moreLabels := as.factor(moreLabels)]
> df[, levels(moreLabels)]
[1] "D" "E" "F"

> df[numbers > 1, ]  # if we subset, we only see values "E" and "F"
   moreLabels numbers
1:          E       2
2:          F       3

> df[numbers > 1, levels(moreLabels)]
[1] "D" "E" "F"  # even though we would expect only "E" and "F"

Run Code Online (Sandbox Code Playgroud)

如果您要查找列中出现的唯一值，请使用pd.Series.unique()函数。

>>> df['moreLabels'].unique()
['D', 'E', 'F']

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，3 月前
查看次数：	1725 次
最近记录：	8 年，3 月前