规格/有效期的评估时间？呈指数增长

Question

规格/有效期的评估时间？呈指数增长

我正在使用clojure.spec解析 DSL。不幸的是，测试是否符合我的规范的计算时间似乎呈指数增长。我想了解原因，以及如何解决。

这是规范的样子：

(spec/def ::settings map?)

(spec/def ::header (spec/spec
                    (spec/cat :prefix #{:begin-example}
                              :label string?
                              :settings (spec/? ::settings))))

(def end-block [:end-example])

(spec/def ::not-end (partial not= end-block))

(spec/def ::end #{end-block})

(spec/def ::block (spec/cat
                   :header ::header
                   :data (spec/* ::not-end)
                   :suffix ::end))

(spec/def ::form (spec/alt :block ::block
                           :form any?))

(spec/def ::forms (spec/* ::form))

Run Code Online (Sandbox Code Playgroud)

为了执行规范，我编写了一个小函数，为规范生成有效数据，并编写了一个大小参数来控制数据的大小：

(defn make-sample-data [size]
  (transduce
   (comp (take size)
         cat)
   conj
   []
   (repeat [:a 1 :b :c [:begin-example "a" {:indent 4}] :d :e [:end-example] 9])))

(make-sample-data 1)
;; => [:a 1 :b :c [:begin-example "a" {:indent 4}] :d :e [:end-example] 9]

(make-sample-data 2)
;; => [:a 1 :b :c [:begin-example "a" {:indent 4}] :d :e [:end-example] 9 :a 1 :b :c [:begin-example "a" {:indent 4}] :d :e [:end-example] 9]

Run Code Online (Sandbox Code Playgroud)

现在我正在执行此代码：

(dotimes [i 13]
  (assert (time (spec/valid? ::forms (make-sample-data i)))))

Run Code Online (Sandbox Code Playgroud)

产生以下输出：

"Elapsed time: 0.077095 msecs"
"Elapsed time: 0.333636 msecs"
"Elapsed time: 0.864481 msecs"
"Elapsed time: 2.198994 msecs"
"Elapsed time: 4.432004 msecs"
"Elapsed time: 9.026142 msecs"
"Elapsed time: 17.709151 msecs"
"Elapsed time: 35.201316 msecs"
"Elapsed time: 73.178516 msecs"
"Elapsed time: 138.93966 msecs"
"Elapsed time: 288.349616 msecs"
"Elapsed time: 569.471181 msecs"
"Elapsed time: 1162.944497 msecs"

Run Code Online (Sandbox Code Playgroud)

在我看来，对于 size 参数的每一步，计算时间都会加倍。

我的问题是：如何修改我的规范，以便验证时间与我的数据大小成线性关系？

Answer 1

Tay*_*ood 5

我猜测性能问题来自贪婪的分支正则表达式规范与any?谓词的组合。

any?在s/alt :form正则表达式分支中的使用对我来说很突出。我想规范可能会s/alt贪婪地/穷尽地评估每个分支，然后回溯，并any?匹配所有内容，包括与您的:block分支匹配的值。（请注意，无论:form any?分支是在:block分支之前还是之后定义，规范都符合相同的规范。）

如果您可以使用比any?顶级s/alt :form分支更具体的谓词，您应该会看到很大的改进。为简洁起见，我内联了规范定义：

(s/def ::forms
  (s/*
    (s/alt :block
           (s/cat :header (s/spec
                            (s/cat :prefix #{:begin-example}
                                   :label string?
                                   :settings (s/? map?)))
                  :data (s/* #(not= % [:end-example]))
                  :suffix #{[:end-example]})
           :form
           (s/nonconforming ;; don't tag results
             (s/or :keyword keyword?
                   :number number?)))))

(time (s/valid? ::forms (make-sample-data 1000)))
"Elapsed time: 84.637513 msecs"
=> true

Run Code Online (Sandbox Code Playgroud)

请注意，允许集合谓词（例如coll?，vector?）到该:form分支会降低性能，就像any?。我想这是因为相同的值匹配s/alt.

归档时间：	6 年，9 月前
查看次数：	90 次
最近记录：	6 年，9 月前