我有以下熊猫数据框:
the_df = pd.DataFrame({'id':[1,2],'name':['Joe','']})
the_df
id name
0 1 Joe
1 2
Run Code Online (Sandbox Code Playgroud)
如您所见,我们可以将第二个名字读为“Sarah”,但它是用特殊字符编写的。
我想创建一个新列,将这些字符转换为拉丁字符。我试过这种方法:
the_df['latin_name'] = the_df['name'].str.extract(r'(^[a-zA-Z\s]*)')
the_df
id name latin_name
0 1 Joe Joe
1 2
Run Code Online (Sandbox Code Playgroud)
但它不识别字母。请,对此的任何帮助将不胜感激。
the_df['name'].str.normalize('NFKC').str.extract(r'(^[a-zA-Z\s]*)')
Run Code Online (Sandbox Code Playgroud)
输出:
0
0 Joe
1 Sarah
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
84 次 |
| 最近记录: |