在Go中将字符串拆分为10kb块

alo*_*loo 9 go

我在Go中有一个大字符串,我想把它拆分成更小的块.每个块应至多10kb.这些块应该在符文上分开(不在符文的中间).

在go中执行此操作的惯用方法是什么?我应该只是循环字符串字节的范围?我错过了一些有用的stdlib包吗?

Cer*_*món 8

使用RuneStart扫描符文边界.在边界处切割字符串.

var chunks []string
for len(s) > 10000 {
    i := 10000
    for i >= 10000 - utf8.UTFMax && !utf8.RuneStart(s[i]) {
        i--
    }
    chunks = append(chunks, s[:i])
    s = s[i:]
}
if len(s) > 0 {
    chunks = append(chunks, s)
}
Run Code Online (Sandbox Code Playgroud)

使用该方法,应用程序检查块边界处的几个字节而不是整个字符串.

编写代码是为了在字符串不是有效的UTF-8编码时保证进度.您可能希望将此情况作为错误处理或以不同方式拆分字符串.

操场的例子


Joh*_*röm 3

分割字符串(或任何切片或数组)的惯用方法是使用切片。由于您想按符文分割,因此您必须循环遍历整个字符串,因为您事先不知道每个切片将包含多少字节。

slices := []string{}
count := 0
lastIndex := 0
for i, r := range longString {
    count++
    if count%10001 == 0 {
        slices = append(slices, longString[lastIndex:i])
        lastIndex = i
    }
}
Run Code Online (Sandbox Code Playgroud)

警告:我尚未运行或测试此代码,但它传达了一般原则。循环字符串会循环符文而不是字节,自动为您解码 UTF-8。使用切片运算符[] 将新字符串表示为其子切片,这longString意味着不需要复制字符串中的任何字节。

请注意,i是字符串中的字节索引,并且在每次循环迭代中可能会增加超过 1。

编辑:

抱歉,我没有看到您想要限制字节数,而不是 Unicode 代码点。您也可以相对轻松地实现它。

slices := []string{}
lastIndex := 0
lastI := 0
for i, r := range longString {
    if i-lastIndex > 10000 {
        slices = append(slices, longString[lastIndex:lastI])
        lastIndex = lastI
    }
    lastI = i
}
Run Code Online (Sandbox Code Playgroud)

play.golang.org 上的一个工作示例,它还处理字符串末尾的剩余字节。