Jon*_*ler 5 ocr encoding text utf cjk
我想从对日语文本进行 OCR 识别后收到的字符串中转换数字。
例如,当我提取日期时:
?? ? ? ? ?? ?
Run Code Online (Sandbox Code Playgroud)
我想将其转换为:
31 ? 12 ? 13 ?
Run Code Online (Sandbox Code Playgroud)
实现它的最佳方法是什么?
我会使用unicodedata
\n\nimport unicodedata\nprint(unicodedata.normalize("NFKC","\xe2\x91\xa2\xe2\x91\xa0 \xe5\xb9\xb4 \xe2\x91\xab \xe6\x9c\x88 \xe2\x91\xa0\xe2\x91\xa2 \xe6\x97\xa5"))\nRun Code Online (Sandbox Code Playgroud)\n\n结果是这样的,
\n\n31 \xe5\xb9\xb4 12 \xe6\x9c\x88 13 \xe6\x97\xa5\nRun Code Online (Sandbox Code Playgroud)\n\n这也可以转换日语数字的其他变体,即全角数字。
\n\nimport unicodedata\nprint(unicodedata.normalize("NFKC","123\xe2\x91\xa0\xe2\x91\xa1\xe2\x91\xa2\xef\xbc\x91\xef\xbc\x92\xef\xbc\x93"))\nRun Code Online (Sandbox Code Playgroud)\n\n到
\n\n123123123\nRun Code Online (Sandbox Code Playgroud)\n
| 归档时间: |
|
| 查看次数: |
673 次 |
| 最近记录: |