我有需要转换成数据库的文件.这些文件(我有超过100k)来自旧系统(从COBOL脚本生成).我现在是将数据从此系统迁移到新系统的团队的一员.
现在,因为我们有很多要解析的文件(每个文件从50mb到100mb)我想确保使用正确的方法将它们转换为sql语句.
大多数文件具有以下格式:
#id<tab>name<tab>address1<tab>address2<tab>city<tab>state<tab>zip<tab>country<tab>#\n
Run Code Online (Sandbox Code Playgroud)
address2是可选的,可以为空或
#id<tab>client<tab>taxid<tab>tagid<tab>address1<tab>address2<tab>city<tab>state<tab>zip<tab>country<tab>#\n
Run Code Online (Sandbox Code Playgroud)
这些是最常见的两条线(我会说大约50%),除了这些之外,所有线看起来都相同,但信息不同.
现在,我的问题是我应该怎么做才能打开它们尽可能高效并正确解析它们?