Java读取大文件

文章目录

- 1. 在内存中读取
- 2. 通过文件流式传输
- 3. 使用Apache Commons IO进行流传输
- 4. 结论

1. 在内存中读取

读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：

Files.readLines(new File(path), Charsets.UTF_8);
FileUtils.readLines(new File(path));

这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致程序抛出OutOfMemoryError 异常。

例如：读取一个大约1G的文件：

@Test
public void givenUsingGuava_whenIteratingAFile_thenWorks() throws IOException {
    String path = ...
    Files.readLines(new File(path), Charsets.UTF_8);
}

首先会消耗少量内存：（消耗〜0 Mb）

[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 128 Mb
[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 116 Mb

但是，在处理完整个文件之后，我们可以看到：（消耗了约2 Gb）:

[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 2666 Mb
[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 490 Mb

这意味这一过程大约耗费了2.1GB的内存-原因很简单：现在文件的所有行都被存储在内存中。

把文件所有的内容都放在内存中很快会耗尽可用内存-不论实际可用内存有多大，这点是显而易见的。

而且，我们通常不需要一次将文件中的所有行都存储在内存中，相反，我们只需要能够遍历每行，进行一些处理并将其丢弃即可。因此，这正是我们要做的–遍历所有行而不将所有行都保留在内存中。

2. 通过文件流式传输

现在让我们看一个解决方案–我们将使用来遍历文件的内容并逐行依次检索行：

FileInputStream inputStream = null;
Scanner sc = null;
try {
    inputStream = new FileInputStream(path);
    sc = new Scanner(inputStream, "UTF-8");
    while (sc.hasNextLine()) {
        String line = sc.nextLine();
        // (line);
    }
    // note that Scanner suppresses exceptions
    if (sc.ioException() != null) {
        throw sc.ioException();
    }
} finally {
    if (inputStream != null) {
        inputStream.close();
    }
    if (sc != null) {
        sc.close();
    }
}

此解决方案将遍历文件中的所有行-允许处理每行-无需保留对其的引用-最终，无需将其保留在内存中：（消耗约150 Mb）

[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Total Memory: 763 Mb
[main] INFO  org.baeldung.java.CoreJavaIoUnitTest - Free Memory: 605 Mb

3. 使用Apache Commons IO进行流传输

通过使用Commons IO库，也可以使用该库提供的自定义LineIterator来实现相同的目的：

LineIterator it = FileUtils.lineIterator(theFile, "UTF-8");
try {
    while (it.hasNext()) {
        String line = it.nextLine();
        // do something with line
    }
} finally {
    LineIterator.closeQuietly(it);
}

由于整个文件不是全部存放在内存中，这也就导致相当保守的内存消耗：（大约消耗了150MB内存）

[main] INFO  o.b.java.CoreJavaIoIntegrationTest - Total Memory: 752 Mb
[main] INFO  o.b.java.CoreJavaIoIntegrationTest - Free Memory: 564 Mb

4. 结论

这篇快速的文章介绍了如何在不重复使用大文件的情况下处理行，而又不会耗尽可用的内存-这在处理这些大文件时非常有用。

所有这些示例和代码段的实现都可以在我们的GitHub项目中找到–这是一个基于Maven的项目，因此应该很容易直接导入和运行。

翻译于：

/java-read-lines-large-file

秒客网