如果 attoparsec 回溯，为什么它需要 manyTill？

Question

如果 attoparsec 回溯，为什么它需要 manyTill？

Jos*_*ica 5 parsing haskell backtracking parser-combinators attoparsec

考虑使用这些不同的解析器组合器。

import Control.Applicative.Combinators
import Text.Regex.Applicative
 
main :: IO ()
main = do
  let parser1 = sym '"' *> manyTill anySym (sym '"')
  print $ match parser1 "\"abc\""
  let parser2 = sym '"' *> many anySym <* sym '"'
  print $ match parser2 "\"abc\""

Run Code Online (Sandbox Code Playgroud)

import Control.Applicative.Combinators            
import Text.ParserCombinators.ReadP hiding(many, manyTill)
 
main :: IO ()
main = do
  let parser1 = char '"' *> manyTill get (char '"')
  print $ readP_to_S parser1 "\"abc\""
  let parser2 = char '"' *> many get <* char '"'
  print $ readP_to_S parser2 "\"abc\""

Run Code Online (Sandbox Code Playgroud)

{-# LANGUAGE OverloadedStrings #-}
 
import Control.Applicative.Combinators
import Data.Attoparsec.Text hiding(manyTill)
 
main :: IO ()
main = do
  let parser1 = char '"' *> manyTill anyChar (char '"')
  print $ parseOnly parser1 "\"abc\""
  let parser2 = char '"' *> many anyChar <* char '"'
  print $ parseOnly parser2 "\"abc\""

Run Code Online (Sandbox Code Playgroud)

import Control.Applicative.Combinators
import Text.Megaparsec hiding(many, manyTill)
import Data.Void

main :: IO ()
main = do
  let parser1 = single '"' *> manyTill anySingle (single '"') :: Parsec Void String String
  print $ parseMaybe parser1 "\"abc\""
  let parser2 = single '"' *> many anySingle <* single '"' :: Parsec Void String String
  print $ parseMaybe parser2 "\"abc\""

Run Code Online (Sandbox Code Playgroud)

对于所有四个，manyTill解析器成功匹配abc，因为这不依赖于回溯。使用regex-applicative和ReadP，many解析器也成功匹配abc，因为默认情况下它们都回溯。使用megaparsec，many解析器无法匹配，因为它默认不回溯。到目前为止，一切都说得通。但是，使用attoparsec，many解析器无法匹配，即使它确实回溯：它的文档说“attoparsec 解析器总是在失败时回溯”和“如果您将增量输入提供给解析器，它将需要与输入量成正比的内存供应。（这是支持任意回溯所必需的。）”。为什么是这样？是不是

Answer 1

K. *_*uhr 5

Attoparsec 文档中“回溯”的含义与其他回溯解析器的回溯含义不同。

当try用于 Parsec 或 Megaparsec 解析器时，它有助于查看“回溯”的含义。这些解析器有一个概念，即在使用输入后失败（“consume err”=cerr）与在不使用任何内容后失败（“empty err”=eerr）。对于这些解析器，如果是 cerr（立即使整个失败）与 eerr（尝试替代），则p <|> q替代运算符会以p不同的方式处理失败。该函数通过将 cerr 转换为 eerr 来回溯。也就是说，在cerr 失败的情况下，将“回溯”输入流的错误消耗。这是在替代方案中回溯失败的一步（尽管使用嵌套p <|> qqtrytry p <|> qptry 调用，可以在解析失败的序列/级联中执行多个回溯步骤）。

Attoparsec 不区分 cerr 和 eerr，因此就好像所有解析器都被try调用所包围。这意味着它会自动对备选方案中的失败执行多个回溯步骤。

ReadP通过同时并行评估每个可能的解析，丢弃那些曾经失败的解析，并选择剩下的“第一个”解析来隐式地回溯。 它在所有可能的解析树上“回溯”失败，无论失败是否在替代的上下文中生成。

事实证明，“在替代方案中对失败进行多步回溯”是一种比“在所有可能的解析树上回溯”更温和的回溯形式。

几个简化的示例可能有助于显示差异。考虑解析器：

(anyChar *> char 'a') <|> char 'b'
Run Code Online (Sandbox Code Playgroud)
和输入字符串"bd"。此解析器因 Parsec/Megaparsec 而失败。左边的替代方案在失败之前消耗了"b"with anyChar，消耗了输入 (cerr)，整个解析器失败了。不过，这对 Attoparsec 效果很好：左侧的替代方案在处失败char 'a'，而 Attoparsec 在替代方案中回溯此失败以尝试char 'b'成功。它还与ReadPwhich 并行构造所有可能的解析一起工作，然后在char 'a'失败时从左侧替代方案中丢弃解析，从而导致单个成功解析char 'b'。

现在，考虑解析器：

(anyChar <|> pure '*') *> char 'b'
Run Code Online (Sandbox Code Playgroud)
和输入字符串"b"。（回想一下，不pure '*'消耗任何东西并且总是成功。）这个解析器以 Parsec/Megaparsec 失败，因为anyChar解析了"b"，pure '*'被忽略，并且空字符串与不匹配char 'b'。Attoparsec 也失败了： anyChar成功解析"b"，并且在替代方案的上下文中没有失败，因此没有回溯尝试pure '*'替代方案。随后尝试解析空字符串char 'b'失败。（这种失败，如果它发生在另一个替代方案的上下文中，可能会导致该替代方案的回溯，但永远不会重新考虑该pure '*'替代方案。）

相比之下，这解析得很好ReadP。 ReadP并行解析备选方案，同时考虑anyChar解析"b"和不pure '*'解析。当char 'b'解析被尝试过，失败于前者，但成功后者。

回到你的例子。用 Attoparsec 解析时，因为：

many p = ((:) <$> p <*> many p) <|> pure []
Run Code Online (Sandbox Code Playgroud)
左选项(:) <$> anyChar <*> many anyChar将继续成功匹配，直到并包括匹配右anyChar引号的点。在 EOF 时，左侧会失败（不消耗输入，尽管 Attoparsec 不在乎），而右侧会成功。替代方案中唯一的失败是在 EOF 处，它无论如何都没有消耗任何东西，因此 Attoparsec 的自动“回溯”不起作用；Megaparsec 也会做同样的事情。无论如何，一旦many anyChar成功，即使终止char '"'随后失败，也不会重新访问。

所以，这就是为什么您需要manyTill明确注意终止字符的原因。

归档时间：	5 年，7 月前
查看次数：	241 次
最近记录：	5 年，7 月前