小编Gid*_*per的帖子

# encode city labels using one-hot encoding scheme
city_ohe = OneHotEncoder(categories='auto')
city_feature_arr = city_ohe.fit_transform(df[['city']]).toarray()
city_feature_labels = city_ohe.categories_
city_features = pd.DataFrame(city_feature_arr, columns=city_feature_labels)

phone_ohe = OneHotEncoder(categories='auto')
phone_feature_arr = phone_ohe.fit_transform(df[['phone']]).toarray()
phone_feature_labels = phone_ohe.categories_
phone_features = pd.DataFrame(phone_feature_arr, columns=phone_feature_labels)

Run Code Online (Sandbox Code Playgroud)

我想知道的是如何在 4 行中执行此操作，同时在输出中正确命名列。也就是说，我可以通过包含两个列名来创建一个正确的单热编码数组，fit_transform但是当我尝试命名结果数据框的列时，它告诉我索引的形状之间存在不匹配：

ValueError: Shape of passed values is (6, 50000), indices imply (3, 50000)

Run Code Online (Sandbox Code Playgroud)

对于背景，电话和城市都有 3 个值。

    city    phone
0   CityA   iPhone
1   CityB Android
2   CityB iPhone
3   CityA   iPhone
4   CityC   Android

Run Code Online (Sandbox Code Playgroud)

python python-3.x pandas scikit-learn one-hot-encoding

Gid*_*per

lucky-day

4
推荐指数

1
解决办法

2万
查看次数

递归运行时 - 空间复杂度（《破解编码面试》第 44 页）

上页。《破解编码面试》第 44 章有以下算法：

int f(int n) {
    if (n <= 1) {
        return 1;
    }
    return f(n - 1) + f(n - 1);
}

Run Code Online (Sandbox Code Playgroud)

书上说它的时间复杂度为 O(2^n) ，空间复杂度为 O(n) 。我得到了时间复杂度部分，因为创建了 O(2^n) 个节点。我不明白为什么空间复杂度不是这样。书上说因为这是因为在任何给定时间只存在 O(n) 个节点。

怎么可能？当我们处于 f(1) 的底层时，调用堆栈不会包含所有 2^n 次调用吗？我缺少什么？

如果我可以提供更多详细信息，请告诉我。

谢谢，

complexity-theory time-complexity space-complexity

Gid*_*per

lucky-day

4
推荐指数

1
解决办法

193
查看次数

标签统计

python ×2

python-3.x ×2

scikit-learn ×2

anaconda ×1

complexity-theory ×1

conda ×1

one-hot-encoding ×1

pandas ×1

pipeline ×1

pycharm ×1

random-forest ×1

space-complexity ×1

time-complexity ×1

Conda 使用 .local 包

从 Sklearn 管道中使用特征名称提取特征重要性

sklearn 中的多列单热编码和命名列

递归运行时 - 空间复杂度（《破解编码面试》第 44 页）

标签 统计

小编Gid_per的帖子

标签统计