当单元格/字段包含前导双引号时,Ruby 将不会解析 CSV

hat*_*ord 5 ruby csv

当其中一列包含双引号 " 字符时,我将如何解析 CSV 文件?我收到“第 xxx 行中缺少或杂散引号”错误,因为其中有一个尾随双引号。确切的错误是“缺少或第 58 行中的杂散引用 (CSV::MalformedCSVError)”。数据来自解析另一个设备(防火墙)配置的应用程序,并且“已由管理员作为注释添加到该设备的配置中,并且因此超出了我的控制范围。

输入数据示例(无法提供文件,它们本质上是敏感的):

"Table 1 Firewall Policy from INT to EXT administrative service rules on TestFirewall","1","Yes","Allow","[Group] GreenServer","[Host] Any","[Group] FTP","No",""Access"^M
Run Code Online (Sandbox Code Playgroud)

正如您所看到的,最后一列中的注释是“”Access”。如果最后一列中只有双引号,我到目前为止的脚本似乎工作得很好。

复制所需的最少代码:

#!/usr/bin/env ruby
require 'csv'
require 'pp'
nipperfiles = Dir.glob(ARGV[0] + '/*.csv')

def allcsv(nipperfiles)
  filearray = []
  nipperfiles.each do |csv|
  filearray << csv
  end

  filearray
end

def devicetype(filelist)
  filelist.each do |f|
  CSV.foreach(f, :headers => true, :force_quotes => true, :encoding => Encoding::UTF_8) do |row|
    if row["Table"] =~ /audit device list/ && row["OS"] =~ /FortiOS/
      return "Fortigate"
    end
    end
  end
end

filelist = allcsv(nipperfiles)
device = devicetype(filelist)
Run Code Online (Sandbox Code Playgroud)

理想情况下,工作代码只会忽略额外的引号或替换它或任何其他可能有问题的字符。可能值得注意的是,鉴于原始防火墙配置是由某人配置的,该人可以在几乎任何单元格/字段中添加额外的引号。

Wan*_*ker 4

这是一个可能有帮助的技巧。使用:quote_char => "'"(假设 CSV 中的列中的值没有单引号字符),这将在读取值中包含双引号 - 您可以通过代码将其删除:

例子:

CSV.foreach(f, :force_quotes => true, :encoding => Encoding::UTF_8,
               :quote_char => "'") do |row|
   puts row[0]
   #=> "Table 1 Firewall ... administrative service rules on TestFirewall"
   puts row[0][1..-2]
   #=> Table 1 Firewall ... administrative service rules on TestFirewall
end
Run Code Online (Sandbox Code Playgroud)

仅供参考:您可以使用 CSV 文本中最不可能出现的任何字符,因为:quote_char上述解决方案仍然有效


如果上述方法不起作用,那么,您最好将每一行处理为 String 并split对其进行使用,而不是使用CSV类。

File.open("/path/to/file") do |f|
  f.each_line do |for|
    columns = row.split(",")
  end
end
Run Code Online (Sandbox Code Playgroud)