从python panda数据帧中的大量文本中逐行删除URL

Mun*_*han 1 python regex dataframe pandas spyder

我已将数据插入pandas数据帧.如图所示,你可以看到有一些行包含url链接我想删除所有url链接并用""替换它们(没有什么只是擦它) 数据帧你可以看到第4行有一个url,其他行也有url.我想浏览status_message列中的所有行,找到任何网址并删除它们.我一直在看这个如何在Python中删除字符串中的任何URL,但我不知道如何在数据帧上使用它.所以第4行现在应该投票支持劳工登记.

jez*_*ael 6

您可以使用str.replacecase=False参数:

df = pd.DataFrame({'status_message':['a s sd Www.labour.com',
                                    'httP://lab.net dud ff a',
                                     'a ss HTTPS://dd.com ur o']})
print (df)
             status_message
0     a s sd Www.labour.com
1   httP://lab.net dud ff a
2  a ss HTTPS://dd.com ur o

df['status_message'] = df['status_message'].str.replace('http\S+|www.\S+', '', case=False)
print (df)
  status_message
0        a s sd 
1       dud ff a
2     a ss  ur o
Run Code Online (Sandbox Code Playgroud)