使用 Python 从文本中提取 IBAN

Question

我想用 Python 从文本中提取 IBAN 号码。这里的挑战是，IBAN 本身可以以多种方式编写，数字之间有空格，我发现很难将其转换为有用的正则表达式模式。

我写了一个演示版本，它试图从文本中匹配所有德国和奥地利的 IBAN 号码。

^DE([0-9a-zA-Z]\s?){20}$

我在stackoverflow上看到过类似的问题。但是，编写 IBAN 数字的不同方法以及从文本中提取这些数字的组合使我的问题很难解决。

希望你能帮我解决这个问题！

Answer 1

一般来说，要匹配德国和奥地利的IBAN代码，您可以使用

codes = re.findall(r'\b(DE(?:\s*[0-9]){20}|AT(?:\s*[0-9]){18})\b(?!\s*[0-9])', text)

细节：

\b- 字边界
(DE(?:\s*[0-9]){20}|AT(?:\s*[0-9]){18})- 第 1 组：DE重复 20 次数字，中间有任意数量的空格，或者AT然后重复 18 次单个数字，最终用任意数量的空格分隔
\b(?!\s*[0-9])- 后面不紧接着零个或多个空格和 ASCII 数字的字边界。

对于您在问题中显示的包含不正确的 IBAN 代码的数据，您可以使用

\b(?:DE|AT)(?:\s?[0-9a-zA-Z]){18}(?:(?:\s?[0-9a-zA-Z]){2})?\b