在熊猫中创建虚拟变量期间 drop_First=true

AIE*_*ast 3 python linear-regression

我的数据集中有几个月(一月、二月、三月等)的数据,我正在使用 Pandas 库生成虚拟变量。pd.get_dummies(df['month'],drop_first=True)

我想了解在这种情况下我是否应该使用 drop_first=True ?为什么使用 drop_first 以及用于哪种类型的变量很重要?

小智 7

  • drop_first=True 使用很重要,因为它有助于减少在创建虚拟变量期间创建的额外列。因此,它减少了虚拟变量之间产生的相关性。
  • 假设我们在 Categorical 列中有 3 种类型的值,我们想为该列创建虚拟变量。如果一个变量没有家具和semi_furnished,那么它显然是unfurnished。所以我们不需要第三个变量来识别未装修的。 例子

因此,如果我们有 n 级的分类变量,那么我们需要使用 n-1 列来表示虚拟变量。