matplotlib 在散点图中不显示图例

Nei*_*eil 6 python plot cluster-analysis matplotlib

我正在尝试解决一个聚类问题,我需要为我的聚类绘制散点图。

%matplotlib inline
import matplotlib.pyplot as plt
df = pd.merge(dataframe,actual_cluster)
plt.scatter(df['x'], df['y'], c=df['cluster'])
plt.legend()
plt.show()
Run Code Online (Sandbox Code Playgroud)

df['cluster'] 是实际的簇号。所以我希望这是我的颜色代码。

在此处输入图片说明

它向我展示了一个情节,但没有向我展示图例。它也不会给我错误。

难道我做错了什么?

Gus*_*rra 5

编辑:

生成一些随机数据:

from scipy.cluster.vq import kmeans2
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

n_clusters = 10
df = pd.DataFrame({'x':np.random.randn(1000), 'y':np.random.randn(1000)})
_, df['cluster'] = kmeans2(df, n_clusters)
Run Code Online (Sandbox Code Playgroud)

更新

  • seaborn.relplotkind='scatter'或一起使用seaborn.scatterplot
    • 指定hue='cluster'
from scipy.cluster.vq import kmeans2
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

n_clusters = 10
df = pd.DataFrame({'x':np.random.randn(1000), 'y':np.random.randn(1000)})
_, df['cluster'] = kmeans2(df, n_clusters)
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

# figure level plot
sns.relplot(data=df, x='x', y='y', hue='cluster', palette='tab10', kind='scatter')
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

原答案

绘制 ( matplotlib v3.3.4):

fig, ax = plt.subplots(figsize=(8, 6))
cmap = plt.cm.get_cmap('jet')
for i, cluster in df.groupby('cluster'):
    _ = ax.scatter(cluster['x'], cluster['y'], color=cmap(i/n_clusters), label=i, ec='k')
ax.legend(loc='center left', bbox_to_anchor=(1, 0.5))
Run Code Online (Sandbox Code Playgroud)

结果:

在此输入图像描述

解释:

不过多讨论 matplotlib 内部的细节,一次绘制一个簇就可以解决问题。更具体地说,ax.scatter()返回一个PathCollection我们在这里明确丢弃的对象,但它似乎在内部传递给某种图例处理程序。一次绘制所有图像仅生成一对PathCollection/ 标签,而一次绘制一个簇会生成n_clusters PathCollection/ 标签对。您可以通过调用ax.get_legend_handles_labels()返回类似以下内容来查看这些对象:

([<matplotlib.collections.PathCollection at 0x7f60c2ff2ac8>,
  <matplotlib.collections.PathCollection at 0x7f60c2ff9d68>,
  <matplotlib.collections.PathCollection at 0x7f60c2ff9390>,
  <matplotlib.collections.PathCollection at 0x7f60c2f802e8>,
  <matplotlib.collections.PathCollection at 0x7f60c2f809b0>,
  <matplotlib.collections.PathCollection at 0x7f60c2ff9908>,
  <matplotlib.collections.PathCollection at 0x7f60c2f85668>,
  <matplotlib.collections.PathCollection at 0x7f60c2f8cc88>,
  <matplotlib.collections.PathCollection at 0x7f60c2f8c748>,
  <matplotlib.collections.PathCollection at 0x7f60c2f92d30>],
 ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9'])
Run Code Online (Sandbox Code Playgroud)

所以实际上ax.legend()相当于ax.legend(*ax.get_legend_handles_labels()).

笔记:

  1. 如果使用 Python 2,请确保i/n_clustersfloat

  2. 省略fig, ax = plt.subplots()并使用plt.<method>而不是ax.<method>工作正常,但我总是更喜欢显式指定Axes我正在使用的对象,而不是隐式使用“当前轴”( plt.gca())。


旧的简单解决方案

如果您可以使用颜色条(而不是离散值标签),您可以使用 Pandas 内置的 Matplotlib 功能:

df.plot.scatter('x', 'y', c='cluster', cmap='jet')
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述