小编Ali*_*Oli的帖子

将字符偏移转换为字节偏移(在Python中)

假设我有一堆UTF-8文件,我用unicode发送到外部API.API对每个unicode字符串进行操作,并返回带有(character_offset, substr)元组的列表.

我需要的输出是每个找到的子字符串的开始和结束字节偏移量.如果我很幸运,输入文本只包含ASCII字符(使字符偏移和字节偏移相同),但情况并非总是如此.如何找到已知开始字符偏移量和子字符串的开始和结束字节偏移量?

我自己已经回答了这个问题,但期待这个问题的其他解决方案更强大,更有效,和/或更具可读性.

python unicode-string offset bytestring

1
推荐指数
1
解决办法
1660
查看次数

标签 统计

bytestring ×1

offset ×1

python ×1

unicode-string ×1