去检查文件是否是文本文件

Tah*_*yam 9 file go

如何检查文件是否是文本文件,而不是图像、视频或其他文本文件?

我已经尝试过检查 aZ 0-9 和文件中包含的特殊字符

Vor*_*ung 1

一种方法是检查文件的所有内容是否都是有效的 UTF-8

import (
        "fmt"
        "os"
        "unicode/utf8"
)

func main() {

        b, _ := os.ReadFile(os.Args[1])

        fmt.Println(utf8.ValidString(string(b)))

}
Run Code Online (Sandbox Code Playgroud)

对于非常大的文件,这效率很低,因此另一种选择可能是读取文件的“第一行”并仅检查此行

package main

import (
    "bufio"
    "fmt"
    "os"
    "unicode/utf8"
)

func main() {
    readFile, err := os.Open(os.Args[1])
    if err != nil {
        panic(err)
    }
    fileScanner := bufio.NewScanner(readFile)
    fileScanner.Split(bufio.ScanLines)

    fileScanner.Scan()

    fmt.Println(utf8.ValidString(string(fileScanner.Text())))

}
Run Code Online (Sandbox Code Playgroud)

第二种方法有时会失败 - 例如某些安装程序有一个脚本标头,后跟二进制数据 - 但在很多情况下它会很好