从Clojure中的STRING解析命令行参数

Ray*_*yne 6 java regex command-line clojure

我遇到的情况是,我需要解析字符串中的参数,就像在命令行中提供给Java/Clojure应用程序时解析它们一样.

例如,我需要"foo \"bar baz\" 'fooy barish' foo"变成("foo" "bar baz" "fooy barish" "foo").

我很好奇是否有办法使用Java或Clojure用来执行此操作的解析器.我并不反对使用正则表达式,但我对正则表达式感到厌恶,如果我试图为此写一个,我会努力的.

有任何想法吗?

Mic*_*zyk 4

更新了一个新的、更复杂的版本。这在官方看来是荒谬的。下一次迭代将使用适当的解析器(或 ccmonads 和一些类似 Parsec 的逻辑)。请参阅此答案的修订历史以了解原始内容。

这一堆错综复杂的函数似乎可以解决问题(抱歉,我对这个函数不太了解!):

(defn initial-state [input]
  {:expecting nil
   :blocks (mapcat #(str/split % #"(?<=\s)|(?=\s)")
                   (str/split input #"(?<=(?:'|\"|\\))|(?=(?:'|\"|\\))"))
   :arg-blocks []})

(defn arg-parser-step [s]
  (if-let [bs (seq (:blocks s))]
    (if-let [d (:expecting s)]
      (loop [bs bs]
        (cond (= (first bs) d)
              [nil (-> s
                       (assoc-in [:expecting] nil)
                       (update-in [:blocks] next))]
              (= (first bs) "\\")
              [nil (-> s
                       (update-in [:blocks] nnext)
                       (update-in [:arg-blocks]
                                  #(conj (pop %)
                                         (conj (peek %) (second bs)))))]
              :else
              [nil (-> s
                       (update-in [:blocks] next)
                       (update-in [:arg-blocks]
                                  #(conj (pop %) (conj (peek %) (first bs)))))]))
      (cond (#{"\"" "'"} (first bs))
            [nil (-> s
                     (assoc-in [:expecting] (first bs))
                     (update-in [:blocks] next)
                     (update-in [:arg-blocks] conj []))]
            (str/blank? (first bs))
            [nil (-> s (update-in [:blocks] next))]
            :else
            [nil (-> s
                     (update-in [:blocks] next)
                     (update-in [:arg-blocks] conj [(.trim (first bs))]))]))
    [(->> (:arg-blocks s)
          (map (partial apply str)))
     nil]))

(defn split-args [input]
  (loop [s (initial-state input)]
    (let [[result new-s] (arg-parser-step s)]
      (if result result (recur new-s)))))
Run Code Online (Sandbox Code Playgroud)

令人鼓舞的是,以下结果true

(= (split-args "asdf 'asdf \" asdf' \"asdf ' asdf\" asdf")
   '("asdf" "asdf \" asdf" "asdf ' asdf" "asdf"))
Run Code Online (Sandbox Code Playgroud)

这也是如此:

(= (split-args "asdf asdf '  asdf \" asdf ' \" foo bar ' baz \" \" foo bar \\\" baz \"")
   '("asdf" "asdf" "  asdf \" asdf " " foo bar ' baz " " foo bar \" baz "))
Run Code Online (Sandbox Code Playgroud)

希望这应该修剪常规参数,而不是用引号括起来的参数,处理双引号和单引号,包括未加引号的双引号内的加引号的双引号(请注意,它目前以相同的方式处理未加引号的单引号内的加引号的单引号,这显然位于与 *nix shell 方式的差异...argh) 等。请注意,它基本上是一个临时状态 monad 中的计算,只是以一种特别丑陋的方式编写,并且迫切需要干燥。:-P