小编Way*_*pth的帖子

Python模糊字符串匹配作为关联样式表/矩阵

我有一个带有x个字符串名称及其相关ID的文件。本质上是两列数据。

我想要的是一个关联样式表，其格式为x乘x（将有问题的数据同时作为x轴和y轴），但是我希望使用Fuzzywuzzy库的函数fuzz.ratio（x ，y）作为输出，使用字符串名称作为输入。本质上是针对每个条目运行每个条目。

这就是我的想法。只是为了表明我的意图：

import pandas as pd
from fuzzywuzzy import fuzz

df = pd.read_csv('random_data_file.csv')

df = df[['ID','String']]
df['String_Dup'] = df['String'] #creating duplicate of data in question
df = df.set_index('ID')

df = df.groupby('ID')[['String','String_Dup']].apply(fuzz.ratio())

Run Code Online (Sandbox Code Playgroud)

但是显然，这种方法目前不适用于我。任何帮助表示赞赏。不必是熊猫，这只是我相对熟悉的环境。

我希望我的问题字眼清楚，而且真的很感谢任何意见，

python fuzzy matrix pandas

Way*_*pth

2018 11-12

6
推荐指数

1
解决办法

425
查看次数