在sckit-learn中跨多个具有相同属性的列进行标签编码

Des*_*nyi 10 python pandas scikit-learn

如果我有两列如下:

Origin  Destination  
China   USA  
China   Turkey  
USA     China  
USA     Turkey  
USA     Russia  
Russia  China  
Run Code Online (Sandbox Code Playgroud)

如何在确保Origin列的标签与目标列中的标签匹配时执行标签编码,即

Origin  Destination  
0   1  
0   3  
1   0  
1   0  
1   0  
2   1  
Run Code Online (Sandbox Code Playgroud)

如果我分别对每列进行编码,那么算法会将column1中的China视为与column2不同,但不是这样

piR*_*red 8

stack

df.stack().pipe(lambda s: pd.Series(pd.factorize(s.values)[0], s.index)).unstack()

   Origin  Destination
0       0            1
1       0            2
2       1            0
3       1            2
4       1            3
5       3            0
Run Code Online (Sandbox Code Playgroud)

factorizereshape

pd.DataFrame(
    pd.factorize(df.values.ravel())[0].reshape(df.shape),
    df.index, df.columns
)

   Origin  Destination
0       0            1
1       0            2
2       1            0
3       1            2
4       1            3
5       3            0
Run Code Online (Sandbox Code Playgroud)

np.uniquereshape

pd.DataFrame(
    np.unique(df.values.ravel(), return_inverse=True)[1].reshape(df.shape),
    df.index, df.columns
)

   Origin  Destination
0       0            3
1       0            2
2       3            0
3       3            2
4       3            1
5       1            0
Run Code Online (Sandbox Code Playgroud)

令人作呕的选择

我无法停止尝试...抱歉!

df.applymap(
    lambda x, y={}, c=itertools.count():
        y.get(x) if x in y else y.setdefault(x, next(c))
)

   Origin  Destination
0       0            1
1       0            3
2       1            0
3       1            3
4       1            2
5       2            0
Run Code Online (Sandbox Code Playgroud)

正如cᴏʟᴅsᴘᴇᴇᴅ所指出的那样

您可以通过分配回数据帧来缩短此时间

df[:] = pd.factorize(df.values.ravel())[0].reshape(df.shape)
Run Code Online (Sandbox Code Playgroud)

  • 你可以缩短`factorize`:`df [:] = pd.factorize(df.values.ravel())[0] .reshape(df.shape)` (2认同)

sac*_*cuL 5

pandas 方法

您可以创建对的字典{country: value}并将数据帧映射到:

country_map = {country:i for i, country in enumerate(df.stack().unique())}

df['Origin'] = df['Origin'].map(country_map)    
df['Destination'] = df['Destination'].map(country_map)

>>> df
   Origin  Destination
0       0            1
1       0            2
2       1            0
3       1            2
4       1            3
5       3            0
Run Code Online (Sandbox Code Playgroud)

sklearn 方法

自您标记以来sklearn,您可以使用LabelEncoder():

from sklearn.preprocessing import LabelEncoder
le= LabelEncoder()
le.fit(df.stack().unique())

df['Origin'] = le.transform(df['Origin'])
df['Destination'] = le.transform(df['Destination'])

>>> df
   Origin  Destination
0       0            3
1       0            2
2       3            0
3       3            2
4       3            1
5       1            0
Run Code Online (Sandbox Code Playgroud)

要获得原始标签:

>>> le.inverse_transform(df['Origin'])
# array(['China', 'China', 'USA', 'USA', 'USA', 'Russia'], dtype=object)
Run Code Online (Sandbox Code Playgroud)


WeN*_*Ben 5

你可以用 replace

df.replace(dict(zip(np.unique(df.values),list(range(len(np.unique(df.values)))))))
   Origin  Destination
0       0            3
1       0            2
2       3            0
3       3            2
4       3            1
5       1            0
Run Code Online (Sandbox Code Playgroud)

Pir的简洁而不错的答案

df.replace((lambda u: dict(zip(u, range(u.size))))(np.unique(df)))
Run Code Online (Sandbox Code Playgroud)

df.replace(dict(zip(np.unique(df), itertools.count())))
Run Code Online (Sandbox Code Playgroud)