小编Way*_*pth的帖子

Python模糊字符串匹配作为关联样式表/矩阵

我有一个带有x个字符串名称及其相关ID的文件。本质上是两列数据。

我想要的是一个关联样式表,其格式为x乘x(将有问题的数据同时作为x轴和y轴),但是我希望使用Fuzzywuzzy库的函数fuzz.ratio(x ,y)作为输出,使用字符串名称作为输入。本质上是针对每个条目运行每个条目。

这就是我的想法。只是为了表明我的意图:

import pandas as pd
from fuzzywuzzy import fuzz

df = pd.read_csv('random_data_file.csv')

df = df[['ID','String']]
df['String_Dup'] = df['String'] #creating duplicate of data in question
df = df.set_index('ID')

df = df.groupby('ID')[['String','String_Dup']].apply(fuzz.ratio())
Run Code Online (Sandbox Code Playgroud)

但是显然,这种方法目前不适用于我。任何帮助表示赞赏。不必是熊猫,这只是我相对熟悉的环境。

我希望我的问题字眼清楚,而且真的很感谢任何意见,

python fuzzy matrix pandas

6
推荐指数
1
解决办法
425
查看次数

标签 统计

fuzzy ×1

matrix ×1

pandas ×1

python ×1