我需要在Javascript/Node.js中解析大型(5-10 Gb)日志文件(我正在使用Cube).
日志看起来像:
10:00:43.343423 I'm a friendly log message. There are 5 cats, and 7 dogs. We are in state "SUCCESS".
Run Code Online (Sandbox Code Playgroud)
我们需要读取每一行,进行一些解析(例如剥离5
,7
然后SUCCESS
),然后使用他们的JS客户端将这些数据泵入Cube(https://github.com/square/cube).
首先,Node中逐行读取文件的规范方式是什么?
这似乎是在线相当常见的问题:
许多答案似乎指向一堆第三方模块:
但是,这似乎是一项相当基本的任务 - 当然,在stdlib中有一种简单的方法可以逐行读取文本文件吗?
其次,我需要处理每一行(例如,将时间戳转换为Date对象,并提取有用的字段).
什么是最好的方法,最大化吞吐量?是否有某种方法不会阻止每行读取或将其发送到Cube?
第三 - 我猜测使用字符串拆分,并且JS等价的contains(IndexOf!= -1?)将比正则表达式快得多?有没有人在Node.js中解析大量文本数据方面有很多经验?
干杯,维克多