我有这样的文字:
F <- "hhhappy birthhhhhhdayyy"
Run Code Online (Sandbox Code Playgroud)
我想删除重复字符,我试过这个代码
它有效,但如果重复超过 2 个,我需要删除重复字符,如果重复 2 次,则保留它。
所以我期望的输出是
"happy birthday"
Run Code Online (Sandbox Code Playgroud)
有什么帮助吗?
我已在包含超过 9000 条记录的数据集上应用了 fuzzy-wuzzy 函数,如下所示:
def fuzzy(name, column):
all = []
#fuzzy set
set = process.extract(name, column, scorer=fuzz.token_set_ratio)
for set_result in set:
set_data = {}
set_data['name'] = set_result[0]
set_data['Matching Score'] = set_result[1]
set_data['Function'] = "set"
all.append(set_data)
return all
#apply similrty
def Get_all(name):
fuzzy_all= []
fuzzy= fuzzy(name,table.Name)
fuzzy2= fuzzy(soundex.encode_word(name),table["name_encoded"])
fuzzy_all=fuzzy+fuzzy2
return fuzzy_all
Run Code Online (Sandbox Code Playgroud)
有没有一种方法可以改进函数并同时传递多个参数(column或name),通过仅调用 fuzzy 一次,以便 fuzzy 不必多次访问整个数据集?