用于解析转义 CSV 行的 Parboiled2 语法

Parboiled2 grammar for parsing escaped CSV line

我正在尝试将包含由分隔符分隔的字符串的单行解析为这些字符串的序列。它应该能够在字符串中包含任何字符,如果一个字段包含一个分隔符,它需要用双引号引起来。为了在这样的字段中有双引号,双引号被转义。

我以此为起点:https://github.com/sirthias/parboiled2/blob/695ee6603359cfcb97734edf6dd1d27383c48727/examples/src/main/scala/org/parboiled2/examples/CsvParser.scala

我的语法是这样的:

class CsvParser(val input: ParserInput, val delimiter: String = ",") extends Parser {
  def line: Rule1[Seq[String]] = rule {record ~ EOI}
  def record = rule(oneOrMore(field).separatedBy(delimiter))

  def QUOTE = "\""
  def ESCAPED_QUOTE = "\\""
  def DELIMITER_QUOTE = delimiter+"\""
  def WS = " \t".replace(delimiter, "")

  def field = rule{whiteSpace ~ ((QUOTE ~ escapedField ~ QUOTE) | unquotedField) ~ whiteSpace}
  def escapedField = rule { capture(zeroOrMore(noneOf(QUOTE) | ESCAPED_QUOTE)) ~> (_.replace(ESCAPED_QUOTE, QUOTE))  } 
  def unquotedField = rule { capture(zeroOrMore(noneOf(DELIMITER_QUOTE))) }
  def whiteSpace = rule(zeroOrMore(anyOf(WS)))
}

当我用 "quote\"key",1,2 调用它时 我得到 Invalid input 'k', expected whiteSpace, ',' or 'EOI' (line 1, column 9)

我做错了什么?我将如何调试它? (作为奖励问题:我将如何扩展语法以允许分隔符是多个字符,如 ##?)

谢谢!

Parboiled2 似乎在不回溯的情况下执行规则。

在这种特殊情况下

def escapedField = rule { capture(zeroOrMore(noneOf(QUOTE) | ESCAPED_QUOTE)) ~> (_.replace(ESCAPED_QUOTE, QUOTE))  } 

noneOf(QUOTE) 从 \" 捕获 \,然后 returns,而不是回溯并尝试捕获完整的 \"。

使用

解决了错误
def escapedField = rule { capture(ESCAPED_QUOTE | zeroOrMore(noneOf(QUOTE))) ~> (_.replace(ESCAPED_QUOTE, QUOTE))  }