相关疑难解决方法(0)

如何在Pandas中使用apply来并行化许多(模糊)字符串比较?

我有以下问题

我有一个包含句子的数据框主文件,例如

master
Out[8]: 
                  original
0  this is a nice sentence
1      this is another one
2    stackoverflow is nice
Run Code Online (Sandbox Code Playgroud)

对于Master中的每一行,我使用查找到另一个Dataframe 从站以获得最佳匹配fuzzywuzzy.我使用fuzzywuzzy,因为两个数据帧之间的匹配句子可能有点不同(额外的字符等).

例如,奴隶可能是

slave
Out[10]: 
   my_value                      name
0         2               hello world
1         1           congratulations
2         2  this is a nice sentence 
3         3       this is another one
4         1     stackoverflow is nice
Run Code Online (Sandbox Code Playgroud)

这是一个功能齐全,精彩,紧凑的工作示例:)

from fuzzywuzzy import fuzz
import pandas as pd
import numpy as np
import difflib


master= pd.DataFrame({'original':['this is a nice sentence', …
Run Code Online (Sandbox Code Playgroud)

python parallel-processing pandas fuzzywuzzy dask

19
推荐指数
1
解决办法
6347
查看次数

标签 统计

dask ×1

fuzzywuzzy ×1

pandas ×1

parallel-processing ×1

python ×1