如何使用Java逐行读取大型文本文件?

man*_*ngh 813 java io performance file-io garbage-collection

我需要使用Java逐行读取大约5-6 GB的大文本文件.

我该怎么办?

Pet*_*rey 1028

一种常见的模式是使用

try (BufferedReader br = new BufferedReader(new FileReader(file))) {
    String line;
    while ((line = br.readLine()) != null) {
       // process the line.
    }
}
Run Code Online (Sandbox Code Playgroud)

如果假设没有字符编码,则可以更快地读取数据.例如ASCII-7但它没有太大区别.您对数据的处理很可能需要更长的时间.

编辑:一种不太常见的模式,可以避免line泄漏的范围.

try(BufferedReader br = new BufferedReader(new FileReader(file))) {
    for(String line; (line = br.readLine()) != null; ) {
        // process the line.
    }
    // line is not visible here.
}
Run Code Online (Sandbox Code Playgroud)

更新:在Java 8中你可以做到

try (Stream<String> stream = Files.lines(Paths.get(fileName))) {
        stream.forEach(System.out::println);
}
Run Code Online (Sandbox Code Playgroud)

注意:您必须将Stream放在try-with-resource块中以确保在其上调用#close方法,否则在GC稍后执行它之前,基础文件句柄永远不会关闭.

  • 为什么不`for(String line = br.readLine(); line!= null; line = br.readLine())`顺便说一句,在Java 8中你可以做`try(Stream <String> lines = Files.lines(. ..)){for(String line :( Iterable <String>)lines :: iterator){...}}`哪个很难不讨厌. (43认同)
  • @AleksandrDubinsky我在Java 8中使用闭包的问题是它很容易使代码更复杂(以及更慢)我可以看到很多开发人员过度使用它因为它很"酷". (25认同)
  • 通过适当的异常处理,这种模式是什么样的?我注意到br.close()会抛出IOException,这看起来很令人惊讶 - 无论如何关闭打开读取的文件会发生什么?FileReader的构造函数可能会抛出FileNotFound异常. (6认同)
  • @JiewMeng所以我怀疑你正在做的其他事情是花时间.你能尝试只阅读文件的行和*没有其他*. (4认同)
  • 如果我有一个200MB的文件,它可以以90MB/s的速度读取,那么我希望它需要~3s?用这种"缓慢"的阅读方式,似乎需要几分钟.我在SSD上,所以阅读速度应该不是问题? (3认同)
  • @PeterLawrey,看起来像用正则表达式来验证每一行的格式是一个坏主意......我有一些像`if(line.matches(regexLineFormat))`删除那些加速的东西.我仍然需要使用`StringTokenizer`来标记字符串.但它现在快点多了谢谢! (3认同)
  • 你确实抓住了"仇恨"部分,对吗?:)虽然实际上我没有使用closures/lambdas. (2认同)
  • @YassinHajaj 同意,前提是使用 lambda 使代码更易于阅读。如果过度使用,它们会使阅读变得更加困难。我们在 2014 年用 Java 8 编写了我们的第一个主要应用程序(26,000 行代码,其中大部分使用 Streams),我们发现在某些情况下,当您在更改数据或生成/更新时使用传统循环更干净例如,不止一个集合。 (2认同)

Nav*_*eed 148

看看这个博客:

可以指定缓冲区大小,或者可以使用默认大小.对于大多数用途,默认值足够大.

// Open the file
FileInputStream fstream = new FileInputStream("textfile.txt");
BufferedReader br = new BufferedReader(new InputStreamReader(fstream));

String strLine;

//Read File Line By Line
while ((strLine = br.readLine()) != null)   {
  // Print the content on the console
  System.out.println (strLine);
}

//Close the input stream
fstream.close();
Run Code Online (Sandbox Code Playgroud)

  • 倾向于质量差的链接.有一个完全没有意义的`DataInputStream`,错误的流被关闭.Java教程没有任何问题,也没有必要引用像这样的任意第三方Internet垃圾. (10认同)
  • 我的文件是1.5 Gig,你无法用你的答案读取文件! (5认同)
  • 我会放弃注释,6 行代码有 4 行 100% 冗余注释。 (4认同)
  • @AboozarRajabi当然有可能.此代码可以读取任何文本文件. (3认同)

msa*_*yag 90

一旦退出(2014年3月),您将能够使用流:

try (Stream<String> lines = Files.lines(Paths.get(filename), Charset.defaultCharset())) {
  lines.forEachOrdered(line -> process(line));
}
Run Code Online (Sandbox Code Playgroud)

打印文件中的所有行:

try (Stream<String> lines = Files.lines(file, Charset.defaultCharset())) {
  lines.forEachOrdered(System.out::println);
}
Run Code Online (Sandbox Code Playgroud)

  • 使用“StandardCharsets.UTF_8”,使用“Stream&lt;String&gt;”以保持简洁,并避免使用“forEach()”,特别是“forEachOrdered()”,除非有原因。 (2认同)
  • 为什么要避免forEach()?这不好吗? (2认同)
  • @steventrouble看看:http://stackoverflow.com/questions/16635398/java-8-iterable-foreach-vs-foreach-loop如果你传递一个简短的函数引用,比如`forEach(this :: process),这也不错)`,但是如果你在`forEach()`中编写代码块作为lambdas,那就太难看了. (2认同)
  • @msayag,你是对的,你需要`forEachOrdered`才能按顺序执行.请注意,在这种情况下,您将无法并行化流,尽管我发现除非文件有数千行,否则并行化不会打开. (2认同)

Dar*_*tar 37

下面是一个完整的错误处理和支持Java 7之前的charset规范的示例.使用Java 7,您可以使用try-with-resources语法,这使代码更清晰.

如果您只想要默认的字符集,可以跳过InputStream并使用FileReader.

InputStream ins = null; // raw byte-stream
Reader r = null; // cooked reader
BufferedReader br = null; // buffered for readLine()
try {
    String s;
    ins = new FileInputStream("textfile.txt");
    r = new InputStreamReader(ins, "UTF-8"); // leave charset out for default
    br = new BufferedReader(r);
    while ((s = br.readLine()) != null) {
        System.out.println(s);
    }
}
catch (Exception e)
{
    System.err.println(e.getMessage()); // handle exception
}
finally {
    if (br != null) { try { br.close(); } catch(Throwable t) { /* ensure close happens */ } }
    if (r != null) { try { r.close(); } catch(Throwable t) { /* ensure close happens */ } }
    if (ins != null) { try { ins.close(); } catch(Throwable t) { /* ensure close happens */ } }
}
Run Code Online (Sandbox Code Playgroud)

这是Groovy版本,具有完整的错误处理:

File f = new File("textfile.txt");
f.withReader("UTF-8") { br ->
    br.eachLine { line ->
        println line;
    }
}
Run Code Online (Sandbox Code Playgroud)


Ale*_*sky 20

在Java 8中,您可以:

try (Stream<String> lines = Files.lines (file, StandardCharsets.UTF_8))
{
    for (String line : (Iterable<String>) lines::iterator)
    {
        ;
    }
}
Run Code Online (Sandbox Code Playgroud)

一些注意事项:Files.lines需要关闭(与大多数流不同)返回的流.由于这里提到的原因,我避免使用forEach().奇怪的代码(Iterable<String>) lines::iterator将Stream转换为Iterable.

  • @qed`for(String line:(Iterable <String>)lines.skip(1):: iterator)` (2认同)

小智 19

您可以做的是使用扫描仪扫描整个文本并逐行浏览文本.当然你应该导入以下内容:

import java.io.File;
import java.io.FileNotFoundException;
import java.util.Scanner;
public static void readText throws FileNotFoundException {
    Scanner scan = new Scanner(new File("samplefilename.txt"));
    while(scan.hasNextLine()){
        String line = scan.nextLine();
        //Here you can manipulate the string the way you want
    }
}
Run Code Online (Sandbox Code Playgroud)

扫描仪基本上扫描所有文本.while循环用于遍历整个文本.

.hasNextLine()函数是一个布尔值,如果文本中还有更多行,则返回true.该.nextLine()函数为您提供整行作为字符串,然后您可以按照您想要的方式使用.尝试System.out.println(line)打印文本.

附注:.txt是文件类型文本.


liv*_*ove 17

FileReader不允许您指定编码,InputStreamReader而是在需要指定时使用:

try {
    BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filePath), "Cp1252"));         

    String line;
    while ((line = br.readLine()) != null) {
        // process the line.
    }
    br.close();

} catch (IOException e) {
    e.printStackTrace();
}
Run Code Online (Sandbox Code Playgroud)

如果从Windows导入此文件,则它可能具有ANSI编码(Cp1252),因此您必须指定编码.


Die*_*rte 16

在Java 7中:

String folderPath = "C:/folderOfMyFile";
Path path = Paths.get(folderPath, "myFileName.csv"); //or any text file eg.: txt, bat, etc
Charset charset = Charset.forName("UTF-8");

try (BufferedReader reader = Files.newBufferedReader(path , charset)) {
  while ((line = reader.readLine()) != null ) {
    //separate all csv fields into string array
    String[] lineVariables = line.split(","); 
  }
} catch (IOException e) {
    System.err.println(e);
}
Run Code Online (Sandbox Code Playgroud)

  • 意识到!如果字段包含逗号并且它被引号括起来,则使用line.split这种方式将无法正确解析.这种拆分将忽略它,并使用内部逗号将块中的字段分开.HTH,马塞洛. (9认同)
  • 迭戈,这不正确.唯一的CSV标准(RFC 4180)明确指出"包含换行符(CRLF),双引号和逗号的字段应该用双引号括起来." (7认同)
  • 使用`StandardCharsets.UTF_8`来避免`Charset.forName("UTF-8")中的已检查异常 (2认同)
  • 感谢"Diego Duarte"的评论; 我必须说我同意"serg.nechaev"的回复.我一直看到嵌入在csv文件中的逗号.人们希望这会被接受.得到应有的尊重.也非常感谢"serg.nechaev".恕我直言你是对的.每个人都欢呼. (2认同)

gom*_*sha 14

我记录并测试了10种不同的方法来读取Java中的文件,然后通过使它们在1KB到1GB的测试文件中读取来相互运行.以下是读取1GB测试文件的最快3种文件读取方法.

请注意,在运行性能测试时,我没有向控制台输出任何内容,因为这会降低测试速度.我只想测试原始阅读速度.

1)java.nio.file.Files.readAllBytes()

在Java 7,8,9中测试过.这是总体上最快的方法.读取1GB文件始终不到1秒.

import java.io..File;
import java.io.IOException;
import java.nio.file.Files;

public class ReadFile_Files_ReadAllBytes {
  public static void main(String [] pArgs) throws IOException {
    String fileName = "c:\\temp\\sample-1GB.txt";
    File file = new File(fileName);

    byte [] fileBytes = Files.readAllBytes(file.toPath());
    char singleChar;
    for(byte b : fileBytes) {
      singleChar = (char) b;
      System.out.print(singleChar);
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

2)java.nio.file.Files.lines()

这已在Java 8和9中成功测试,但由于缺乏对lambda表达式的支持,因此无法在Java 7中运行.在一个1GB的文件中读取大约需要3.5秒才能将其放在第二位,直到读取更大的文件.

import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.util.stream.Stream;

public class ReadFile_Files_Lines {
  public static void main(String[] pArgs) throws IOException {
    String fileName = "c:\\temp\\sample-1GB.txt";
    File file = new File(fileName);

    try (Stream linesStream = Files.lines(file.toPath())) {
      linesStream.forEach(line -> {
        System.out.println(line);
      });
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

3)BufferedReader

测试工作在Java 7,8,9中.在1GB测试文件中读取大约需要4.5秒.

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;

public class ReadFile_BufferedReader_ReadLine {
  public static void main(String [] args) throws IOException {
    String fileName = "c:\\temp\\sample-1GB.txt";
    FileReader fileReader = new FileReader(fileName);

    try (BufferedReader bufferedReader = new BufferedReader(fileReader)) {
      String line;
      while((line = bufferedReader.readLine()) != null) {
        System.out.println(line);
      }
    }
  }
Run Code Online (Sandbox Code Playgroud)

您可以在此处找到所有10种文件阅读方法的完整排名.

  • 要求逐行阅读的问题,只有最后一种方法符合条件...... (3认同)
  • 你的指导太棒了:) (2认同)
  • 您主要在此处计时“System.out.print/println()”;您还假设在前两种情况下该文件将适合内存。 (2认同)

Rüd*_*ann 12

在Java 8中,还有一种替代方法Files.lines().如果您的输入源不是文件,而是像a Reader或an 那样更抽象的东西InputStream,则可以通过s 方法对行进行流式处理.BufferedReaderlines()

例如:

try (BufferedReader reader = new BufferedReader(...)) {
  reader.lines().forEach(line -> processLine(line));
}
Run Code Online (Sandbox Code Playgroud)

将调用processLine()每个读取的输入行BufferedReader.


小智 10

对于使用java 8 读取文件

  package com.java.java8;

    import java.nio.file.Files;
    import java.nio.file.Paths;
    import java.util.stream.Stream;

    /**
     * The Class ReadLargeFile.
     *
     * @author Ankit Sood Apr 20, 2017
     */
    public class ReadLargeFile {

        /**
         * The main method.
         *
         * @param args
         *            the arguments
         */
        public static void main(String[] args) {
        try {
            Stream<String> stream = Files.lines(Paths.get("C:\\Users\\System\\Desktop\\demoData.txt"));
            stream.forEach(System.out::println);
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        }
    }
Run Code Online (Sandbox Code Playgroud)


Abh*_*ash 9

您可以使用Scanner类

Scanner sc=new Scanner(file);
sc.nextLine();
Run Code Online (Sandbox Code Playgroud)

  • @Tim这段代码既不会"轰炸",也不会"陷入困境",也不会"执行得非常缓慢",也不会"极有可能崩溃".事实上,正如所写的那样,它几乎只会读取一行.你可以用这种方式读取每秒兆字节数,虽然`BufferedReader.readLine()`肯定要快几倍.如果您不这么认为,请提供您的理由. (5认同)
  • @Tim为什么会这样做? (4认同)
  • @Tim'炸弹可怕'不是我在CS中认出的术语.你到底什么意思? (2认同)
  • 使用`Scanner`很好,但这个答案不包括正确使用它的完整代码. (2认同)

Mas*_*r C 7

您需要使用该readLine()方法class BufferedReader.从该类创建一个新对象并在他上面操作此方法并将其保存为字符串.

BufferReader Javadoc


Abd*_*UMI 6

Java-9:

try (Stream<String> stream = Files.lines(Paths.get(fileName))) {
        stream.forEach(System.out::println);
}
Run Code Online (Sandbox Code Playgroud)

  • 这是规范的Java 8示例,已经由其他人发布.为什么你声称这是"Java-9"? (6认同)
  • 不要将字符串与`==`进行比较! (5认同)
  • 我认为你必须要`System.getProperty("os.name").equals("Linux")` (2认同)

Raj*_*n S 5

实现这一目标的明确方法,

例如:

如果您dataFile.txt在当前目录中

import java.io.*;
import java.util.Scanner;
import java.io.FileNotFoundException;

public class readByLine
{
    public readByLine() throws FileNotFoundException
    {
        Scanner linReader = new Scanner(new File("dataFile.txt"));

        while (linReader.hasNext())
        {
            String line = linReader.nextLine();
            System.out.println(line);
        }
        linReader.close();

    }

    public static void main(String args[])  throws FileNotFoundException
    {
        new readByLine();
    }
}
Run Code Online (Sandbox Code Playgroud)

输出如下, 在此输入图像描述