我试图在python中将字符串拆分为"标签"列表.拆分应该处理诸如"HappyBirthday"之类的字符串并删除大多数标点符号但保留连字符和撇号.我的出发点是:
tags = re.findall("([A-Z]{2,}(?=[A-Z]|$)|[A-Z][a-z]*)|\w+-\w+|[\w']+"
Run Code Online (Sandbox Code Playgroud)
我想转换这个示例数据:
Jeff's dog is un-American SomeTimes! BUT NOTAlways
Run Code Online (Sandbox Code Playgroud)
成:
['Jeff's', 'dog', 'is', 'un-American', 'Some', 'Times', 'BUT', 'NOT', 'Always']
Run Code Online (Sandbox Code Playgroud)
PS我很抱歉我的描述不是很好.我不确定如何解释它,并且大多数谷歌都没有成功.我希望这个例子能够恰当地说明它.
编辑:我想我需要更精确,所以,
可能吗?如果没有,给定一个大小为n的数组,我怎么知道它是否更好地排序数组?