小编Ali*_*Oli的帖子

假设我有一堆UTF-8文件,我用unicode发送到外部API.API对每个unicode字符串进行操作,并返回带有(character_offset, substr)元组的列表.

我需要的输出是每个找到的子字符串的开始和结束字节偏移量.如果我很幸运,输入文本只包含ASCII字符(使字符偏移和字节偏移相同),但情况并非总是如此.如何找到已知开始字符偏移量和子字符串的开始和结束字节偏移量？

我自己已经回答了这个问题,但期待这个问题的其他解决方案更强大,更有效,和/或更具可读性.

1
推荐指数

1
解决办法

1660
查看次数

小编Ali_Oli的帖子