Sam*_*hin 3 python regex currency
我正在编写一个小工具来从字符串中提取一堆值(通常是推文).
字符串可以包含单词和数字,以及以货币符号(£,$,€等)为前缀的数量和一些主题标签(#foo #bar).我在appEngine上运行并使用tweepy来引入推文.
我必须找到的当前代码如下:
tagex = re.compile(r'#.*')
curex = re.compile(ur'[£].*')
for x in api.user_timeline(since_id = t.lastimport):
tags = re.findall(tagex, x.text)
amount = re.findall(curex, x.text)[0]
logging.info("Text: " + x.text)
logging.info("Tags: " + str(tags))
logging.info("Amount: " + amount)
Run Code Online (Sandbox Code Playgroud)
其中x.text是例如"Taxi London£6.50 #projectfoo #clientmeeting"
tagex发现主题标签很好,但我无法获得curex来提取当前的金额:金额:£6.50 #projectfoo #clientmeeting.
我还需要将货币符号分开,以便将金额作为浮点数,但这应该在以后非常简单.
mar*_*cog 15
>>> re.search(ur'([£$€])(\d+(?:\.\d{2})?)', s).groups()
(u'\xa3', u'6.50')
Run Code Online (Sandbox Code Playgroud)
[£$€] 匹配一个货币符号\d+(?:\.\d{2}) 匹配一个或多个数字后跟一个可选的小数点,后跟两个正数()捕获符号和数量你的正则表达式的问题是.*匹配任何东西并且是贪婪的,所以在正则表达式的末尾它匹配后面的所有内容.