我正在寻找一种有效的方法来从DataFrame列中的字符串中删除不需要的部分.
数据看起来像:
time result
1 09:00 +52A
2 10:00 +62B
3 11:00 +44a
4 12:00 +30b
5 13:00 -110a
Run Code Online (Sandbox Code Playgroud)
我需要将这些数据修剪为:
time result
1 09:00 52
2 10:00 62
3 11:00 44
4 12:00 30
5 13:00 110
Run Code Online (Sandbox Code Playgroud)
我试过了.str.lstrip('+-').str.rstrip('aAbBcC'),但得到一个错误:
TypeError: wrapper() takes exactly 1 argument (2 given)
Run Code Online (Sandbox Code Playgroud)
任何指针将不胜感激!
这是一个自我回答的帖子.下面我概述NLP域中的一个常见问题,并提出一些高效的方法来解决它.
通常需要在文本清理和预处理期间去除标点符号.标点符号定义为以下任何字符string.punctuation:
>>> import string
string.punctuation
'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'
Run Code Online (Sandbox Code Playgroud)
这是一个很常见的问题,并且在恶心之前就被问过了.最惯用的解决方案是使用熊猫str.replace.但是,对于涉及大量文本的情况,可能需要考虑更高性能的解决方案.
str.replace在处理数十万条记录时,有哪些优秀,高效的替代方案?