假设我有一堆UTF-8文件,我用unicode发送到外部API.API对每个unicode字符串进行操作,并返回带有(character_offset, substr)元组的列表.
(character_offset, substr)
我需要的输出是每个找到的子字符串的开始和结束字节偏移量.如果我很幸运,输入文本只包含ASCII字符(使字符偏移和字节偏移相同),但情况并非总是如此.如何找到已知开始字符偏移量和子字符串的开始和结束字节偏移量?
我自己已经回答了这个问题,但期待这个问题的其他解决方案更强大,更有效,和/或更具可读性.
python unicode-string offset bytestring
bytestring ×1
offset ×1
python ×1
unicode-string ×1