当我使用pandas value_count方法时,我得到以下数据:
new_df['mark'].value_counts()
1 1349110
2 1606640
3 175629
4 790062
5 330978
Run Code Online (Sandbox Code Playgroud)
如何获得这样的每一行的百分比?
1 1349110 31.7%
2 1606640 37.8%
3 175629 4.1%
4 790062 18.6%
5 330978 7.8%
Run Code Online (Sandbox Code Playgroud)
我需要将每一行除以这些数据的总和.
我得到如下列表:
cat score name
a 80 fa
c 88 lu
b 36 li
b 96 liu
d 99 zc
b 76 mi
d 89 lu
a 50 fa
d 69 zhang
b 36 huang
d 59 guan
b 96 ka
b 86 chao
c 98 le
a 50 mi
a 90 zc
c 83 chao
b 66 guan
Run Code Online (Sandbox Code Playgroud)
如何使用大熊猫获得每只猫的最高3分?显示所有三行
我使用 scikit-learn 通过 k-means 进行聚类:
from sklearn import cluster
k = 4
kmeans = cluster.KMeans(n_clusters=k)
Run Code Online (Sandbox Code Playgroud)
但另一个问题是:如何使用 scikit 学习计算 k 均值特征重要性?
pandas ×2
python ×2
dataframe ×1
group-by ×1
k-means ×1
percentage ×1
scikit-learn ×1
series ×1
sum ×1