小编dat*_*ner的帖子

如何在sklearn中对连续属性进行离散化?

我的数据包含连续和分类功能的混合.下面是我的数据在csv格式中的一小部分(将其视为由在不同城市运营商店的超级商店链收集的数据)

city,avg_income_in_city,population,square_feet_of_store_area,  store_type ,avg_revenue
NY  ,54504            , 3506908   ,3006                       ,INDOOR    , 8000091
CH  ,44504            , 2505901   ,4098                       ,INDOOR    , 4000091
HS  ,50134            , 3206911   ,1800                       ,KIOSK     , 7004567
NY  ,54504            , 3506908   ,1000                       ,KIOSK     , 2000091
Run Code Online (Sandbox Code Playgroud)

她可以看到avg_income_in_city,square_feet_of_store_area和avg_revenue是连续值,其中city,store_type等是分类类(还有一些我没有在这里展示以保持数据的简洁性).

我希望对数据建模以预测收入.问题是如何使用sklearn"离散"连续值?sklearn是否为连续值的离散化提供了任何"现成的"类/方法?(就像我们在Orange中一样,例如Orange.Preprocessor_discretize(data,method = orange.EntropyDiscretization())

谢谢 !

scikit-learn discretization

7
推荐指数
3
解决办法
2万
查看次数

标签 统计

discretization ×1

scikit-learn ×1