SAX 中有一个定位器,它跟踪当前位置。但是,当我在 startElement() 中调用它时,它总是返回 xml 标记的结束位置。
如何获取标签的起始位置?有什么办法可以优雅地解决这个问题吗?
假设我有一堆UTF-8文件,我用unicode发送到外部API.API对每个unicode字符串进行操作,并返回带有(character_offset, substr)元组的列表.
我需要的输出是每个找到的子字符串的开始和结束字节偏移量.如果我很幸运,输入文本只包含ASCII字符(使字符偏移和字节偏移相同),但情况并非总是如此.如何找到已知开始字符偏移量和子字符串的开始和结束字节偏移量?
我自己已经回答了这个问题,但期待这个问题的其他解决方案更强大,更有效,和/或更具可读性.