我有一个pandas DF,它有许多包含这样的单词的字符串元素:
'Frost '
Run Code Online (Sandbox Code Playgroud)
其前面有许多领先的白色空间.当我将这个字符串比较为:
'Frost'
Run Code Online (Sandbox Code Playgroud)
我意识到由于领先的空间,比较是假的.
虽然我可以通过迭代pandas DF的每个元素来解决这个问题,但由于我拥有大量记录,因此进程很慢.
这种方法应该有效,但它不起作用:
rawlossDF['damage_description'] = rawlossDF['damage_description'].map(lambda x: x.strip(''))
Run Code Online (Sandbox Code Playgroud)
所以当我检查一个元素时:
rawlossDF.iloc[0]['damage_description']
Run Code Online (Sandbox Code Playgroud)
它返回:
'Frost '
Run Code Online (Sandbox Code Playgroud)
这里发生了什么?
我正试图找到一个更快的解决方案,我现在拥有.我的问题包括创建一个从其他2个列表派生的python列表.List_a有很多元素,list_b有更多的元素,有些与list_a有共同之处.
这就是我所拥有的:
list_a = [a huge python list with over 100,000 elements ]
list_b = [a huge python list with over 1,000,00 elements]
Run Code Online (Sandbox Code Playgroud)
我的解决方案
list_c = []
for item in list_a:
if item not in list_b:
list_c.append(item)
Run Code Online (Sandbox Code Playgroud)
它有效,但它非常非常慢.有没有办法更快地解决这个问题?