小编Fat*_*ima的帖子

删除字符串中重复两次以上的字符

我有这样的文字:

F <- "hhhappy birthhhhhhdayyy"
Run Code Online (Sandbox Code Playgroud)

我想删除重复字符,我试过这个代码

/sf/answers/781560181/

它有效,但如果重复超过 2 个,我需要删除重复字符,如果重复 2 次,则保留它。

所以我期望的输出是

"happy birthday"
Run Code Online (Sandbox Code Playgroud)

有什么帮助吗?

regex r text-mining

6
推荐指数
1
解决办法
1456
查看次数

在 FuzzyWuzzy 中传递多个参数

我已在包含超过 9000 条记录的数据集上应用了 fuzzy-wuzzy 函数,如下所示:

def fuzzy(name, column):
    all = []     
    #fuzzy set 
    set = process.extract(name, column, scorer=fuzz.token_set_ratio)
    for set_result in set:
        set_data = {}
        set_data['name'] = set_result[0] 
        set_data['Matching Score'] = set_result[1]
        set_data['Function'] = "set" 
        all.append(set_data)
    return all  

     
#apply similrty  
def Get_all(name): 
    fuzzy_all= []
    fuzzy= fuzzy(name,table.Name)
    fuzzy2= fuzzy(soundex.encode_word(name),table["name_encoded"])
    fuzzy_all=fuzzy+fuzzy2
    return fuzzy_all
Run Code Online (Sandbox Code Playgroud)

有没有一种方法可以改进函数并同时传递多个参数(columnname),通过仅调用 fuzzy 一次,以便 fuzzy 不必多次访问整个数据集?

python

2
推荐指数
1
解决办法
2194
查看次数

标签 统计

python ×1

r ×1

regex ×1

text-mining ×1