Clojure - 处理内存不足的大文件

Question

Clojure - 处理内存不足的大文件

wae*_*oll 5 clojure file-processing memory-efficient

我正在处理60GB或更大的文本文件.这些文件分成可变长度的标题部分和数据部分.我有三个功能:

head? 用于区分标题行和数据行的谓词
process-header 处理一个标题行字符串
process-data 处理一个数据行字符串
处理功能异步访问和修改内存数据库

我从另一个SO线程推进了文件读取方法,它应该构建一个懒惰的行序列.想法是用一个函数处理一些行,然后切换一次函数并继续处理下一个函数.

(defn lazy-file
  [file-name]
  (letfn [(helper [rdr]
            (lazy-seq
             (if-let [line (.readLine rdr)]
               (cons line (helper rdr))
               (do (.close rdr) nil))))]
    (try
      (helper (clojure.java.io/reader file-name))
      (catch Exception e
        (println "Exception while trying to open file" file-name)))))

Run Code Online (Sandbox Code Playgroud)

我喜欢用它

(let [lfile (lazy-file "my-file.txt")]
  (doseq [line lfile :while head?]
    (process-header line))
  (doseq [line (drop-while head? lfile)]
    (process-data line)))

Run Code Online (Sandbox Code Playgroud)

虽然这样可行,但由于以下几个原因,效率相当低:

我不得不直接调用,process-head直到我到达数据然后继续process-data,我必须过滤标题行并处理它们,然后重新解析整个文件并删除所有标题行以处理数据.这与lazy-file打算做的完全相反.
看着内存消耗告诉我,程序虽然看起来很懒,却会使用尽可能多的RAM来保存文件在内存中.

那么使用我的数据库的更有效,惯用的方法是什么？

一个想法可能是使用多方法来处理依赖于head?谓词值的标题和数据,但我认为这会产生一些严重的速度影响,特别是因为只有一个出现,其中谓词结果从始终变为真总变为假.我还没有基准测试.

用另一种方法构建line-seq并用它解析它会更好iterate吗？这仍然需要我使用:while和:drop-while,我猜.

在我的研究中,曾多次提到使用NIO文件访问,这应该可以提高内存使用率.我还没知道如何在clojure中以惯用的方式使用它.

也许我仍然很难掌握一般的想法,如何处理文件？

一如既往,非常感谢任何帮助,想法或指向tuts.

Answer 1

sch*_*eho 0

这里有几件事需要考虑：

内存使用情况

有报道称 leiningen 可能会添加一些内容，从而保留对头部的引用，尽管doseq具体不保留其正在处理的序列的头部，参见。这个问题。尝试验证您的声明“使用将文件保存在内存中所需的尽可能多的 RAM”而不使用lein repl.
解析行

doseq您还可以使用一种方法，而不是使用两个循环loop/recur。您期望解析的将是像这样的第二个参数（未经测试）：
```
    (loop [lfile (lazy-file "my-file.txt")
           parse-header true]
       (let [line (first lfile)]
            (if [and parse-header (head? line)]
                (do (process-header line)
                    (recur (rest lfile) true))
                (do (process-data line)
                    (recur (rest lfile) false)))))
```
Run Code Online (Sandbox Code Playgroud)
这里还有另一个选择，即将您的处理功能合并到文件读取功能中。因此，您不仅可以立即cons处理新行并返回它，而且还可以立即处理它 - 通常您可以将处理函数作为参数移交，而不是对其进行硬编码。

您当前的代码看起来处理是一个副作用。如果是这样，那么如果您合并处理，您可能可以消除惰性。无论如何，您都需要处理整个文件（或者看起来如此），并且您是在每行的基础上执行此操作。该lazy-seq方法基本上只是将单行读取与单个处理调用对齐。当前解决方案中出现了对惰性的需求，因为您将读取（整个文件，逐行）与处理分开。如果您将一行的处理移至读取中，则不需要懒惰地这样做。

归档时间：	10 年，2 月前
查看次数：	519 次
最近记录：	10 年，2 月前