如何在 Go 中缓存已编译的正则表达式

Jav*_*per 8 regex compilation instance-variables go

下面是我的 golang 代码。每次调用验证方法时,我的编译方法都会被执行。我只想编译一次,而不是每次调用验证时都编译。

1)怎么做?2)我的想法是创建一个实例变量,该变量在开始时为零。它会在验证中延迟初始化。

if (a != nil) {
  a, err := regexp.Compile(rras.Cfg.WhiteList)
}
Run Code Online (Sandbox Code Playgroud)

但是,如果我将变量声明为实例变量,

var a *Regexp; // regexp.Compile returns *Regexp
Run Code Online (Sandbox Code Playgroud)

我的编译器用红色下划线。如何修复它?

type RRAS struct {
    Cfg       *RRAPIConfig
}

type RRAPIConfig struct {
    WhiteList               string
}

func (rras *RRAS) validate(ctx context.Context) error {
        a, err := regexp.Compile(rras.Cfg.WhiteList)
}
Run Code Online (Sandbox Code Playgroud)

Fal*_*lco 5

静态初始化

var whitelistRegexp = regexp.MustCompile(Cfg.WhiteList)

func (rras *RRAS) validate(ctx context.Context) error {
  if !whitelistRegexp.Match(...) {...}
}
Run Code Online (Sandbox Code Playgroud)

这将在包导入后立即编译正则表达式,这通常是在程序启动时,在主方法中的任何代码执行之前。

好处

  • 如果正则表达式被破坏,你的程序将立即崩溃,这有助于快速找到错误。
  • 代码非常小而干净,没有任何陷阱
  • 无需担心 go-routines

缺点

  • 潜在的缓慢编译可能会减慢整个程序(或服务器)的启动速度
  • 仅当正则表达式是静态的并且在启动时存在时才有效
  • 仅当单个正则表达式(或几个静态正则表达式)用于所有情况时才有效

同步和缓存

var whitelistR struct{
  rex *regexp.Regexp
  once sync.Once
  err error
}

func (rras *RRAS) validate(ctx context.Context) error {
  whitelistR.once.Do(func() {
    whitelistR.ex, whitelistR.err = regexp.Compile(rras.Cfg.WhiteList)
  })

  if whitelistR.err != nil {
    return fmt.Errorf("could not compile regex: %w", err)
  }

  if !whitelistR.rex.Match(...) {...}
}
Run Code Online (Sandbox Code Playgroud)

这将在第一次调用该方法时轻松编译正则表达式。非常sync.Once重要,因为它是一个同步点,保证对正则表达式的访问不会出现竞争条件。每次调用该方法都必须等到 Regexp 第一次编译。之后同步非常快,因为它仅使用原子加载。

您还可以go once.Do(...)在 main 方法中调用并行初始化正则表达式,以加快第一次调用的速度,而不会阻塞其他方法。

好处

  • 程序(或服务器)启动不受编译时间的影响
  • 仅在实际需要时才进行编译
  • 您可以根据需要动态创建正则表达式的字符串,这可以减少二进制文件大小并加快程序速度
  • 可以在缓存映射中缓存许多不同的正则表达式

缺点

  • 正则表达式中的错误只会在实际使用此方法的测试中显示,而不会在启动时显示
  • 代码更复杂(10 行而不是 1 行)
  • 有些开发人员可能会忘记在另一种方法中调用sync.Once并引入难以捕获的竞争条件
  • 有人可能会尝试聪明地将sync.Once调用包装到if中,并且会引入难以捕获的竞争条件

结论

几乎总是使用简单的静态初始化。仅当您确定对性能有影响(基准测试)时,才使用同步初始化。同步访问时,始终尝试使用 go 提供的帮助程序(sync.Once、Mutex、RWMutex 等),因为它们经过优化且不易出错。

推荐阅读:

Go 内存模型详细介绍了同步和最佳实践

Go Data Race Detector你应该对每个复杂的多例程 go 程序进行竞赛测试