在 Common Lisp 中快速读取 CSV

Question

在 Common Lisp 中快速读取 CSV

在 CL 中读取 csv 文件的最快方法是什么：1）第一行中的所有字段都进入一个名为“column-names”的数组 2）以下所有行的第一个字段进入另一个名为“column-names”的数组row-names 3) 所有其他字段都进入另一个名为 value 的数组吗？

我的文件具有以下形式，只是有更多的列和行：

"";"ES1 Index";"VG1 Index";"TY1 Comdty";"RX1 Comdty";"GC1 Comdty"
"1999-01-04";1391.12;3034.53;66.515625;86.2;441.39
"1999-01-05";1404.86;3072.41;66.3125;86.17;440.63
"1999-01-06";1435.12;3156.59;66.4375;86.32;441.7
"1999-01-07";1432.32;3106.08;66.25;86.22;447.67

Run Code Online (Sandbox Code Playgroud)

我想要的结果是：

#("1999-01-04" "1999-01-05" "1999-01-06" "1999-01-07" )
#("" "ES1 Index" "VG1 Index" "TY1 Comdty" "RX1 Comdty" "GC1 Comdty")
#(1391.12 3034.53 66.515625 86.2 441.39 1404.86 3072.41 66.3125 86.17 440.63
  1435.12 3156.59 66.4375 86.32 441.7 1432.32 3106.08 66.25 86.22 447.67)

Run Code Online (Sandbox Code Playgroud)

您是否知道某些 CL 库已经这样做了？是否存在我应该注意的有关 I/O 性能的一般问题（可能是特定于编译器的问题）？

这是我现在正在做的方式：

(with-open-file (stream "my-file.csv" :direction :input)
   (let* ((header (read-line stream nil))
          (columns-list (mapcar #'read-from-string
                                (cl-ppcre:split ";" header)))
          (number-of-columns (length columns-list))
          (column-names (make-array number-of-columns
                                    :initial-contents columns-list))
          (rownames (make-array 1 :adjustable t :fill-pointer 0))
          (values (make-array 1 :adjustable t :fill-pointer 0)))
 (set-syntax-from-char #\; #\ )
 (loop
    :for reader = (read stream nil stream)
    :until (eq reader stream)
    :do (progn (vector-push-extend reader row-names)
           (loop
              :for count :from 2 :upto number-of-columns
              :do (vector-push-extend (read stream nil)
                                  values)))
    :finally (return (values row-names
                      column-names
                      values)))))

Run Code Online (Sandbox Code Playgroud)

注意：我不会在实际代码中使用 set-syntax-from-char ，我只是为了这个示例而使用它。

Answer 1

bla*_*ert 2

我怀疑 I/O 是这里最慢的部分。如果您使用READ-SEQUENCE而不是重复调用READ-LINE，您可能会获得更快的 I/O 。所以你的代码可能看起来像这样：

(with-open-file (s "my-file.csv")
  (let* ((len (file-length s))
         (data (make-array len)))
    (read-sequence data s)
     data))

Run Code Online (Sandbox Code Playgroud)

然后data按换行符分割并添加您的逻辑。

无论这是否有帮助，它都会帮助您分析您的代码，例如使用:sb-sprof，以查看大部分时间都花在哪里。

归档时间：	10 年，5 月前
查看次数：	2629 次
最近记录：	9 年，1 月前