相关疑难解决方法(0)

在Python中管道stdout时设置正确的编码

管道Python程序的输出时,Python解释器会对编码感到困惑,并将其设置为None.这意味着这样的程序:

# -*- coding: utf-8 -*-
print u"åäö"

Run Code Online (Sandbox Code Playgroud)

正常运行时会正常工作,但失败时:

UnicodeEncodeError:'ascii'编解码器无法对位置0中的字符u'\ xa0'进行编码:序数不在范围内(128)

当在管道序列中使用时.

在配管时使这项工作的最佳方法是什么？我可以告诉它使用shell/filesystem /无论使用什么编码吗？

到目前为止我看到的建议是直接修改你的site.py,或者使用这个hack对defaultencoding进行硬编码:

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
print u"åäö"

Run Code Online (Sandbox Code Playgroud)

是否有更好的方法使管道工作？

python terminal encoding stdout python-2.x

Joa*_*org

2014 11-12

327
推荐指数

7
解决办法

19万
查看次数

Python,Unicode和Windows控制台

当我尝试在Windows控制台中打印Unicode字符串时,出现UnicodeEncodeError: 'charmap' codec can't encode character ....错误.我认为这是因为Windows控制台不接受仅Unicode字符.最好的方法是什么？?在这种情况下,有什么方法可以让Python自动打印而不是失败？

编辑: 我正在使用Python 2.5.

注意: @ LasseV.Karlsen回答带有复选标记有点过时(从2008年开始).请谨慎使用下面的解决方案/答案/建议!!

截至今天(2016年1月6日),@ JFSebastian答案更为相关.

python unicode

Jam*_*lak

2017 05-23

128
推荐指数

7
解决办法

9万
查看次数

在Python中获取HTTP响应的字符集/编码的好方法

寻找一种使用Python urllib2或任何其他Python库获取HTTP响应的字符集/编码信息的简单方法.

>>> url = 'http://some.url.value'
>>> request = urllib2.Request(url)
>>> conn = urllib2.urlopen(request)
>>> response_encoding = ?

Run Code Online (Sandbox Code Playgroud)

我知道它有时出现在'Content-Type'标题中,但该标题有其他信息,并且它嵌入在我需要解析的字符串中.例如,Google返回的Content-Type标头是

>>> conn.headers.getheader('content-type')
'text/html; charset=utf-8'

Run Code Online (Sandbox Code Playgroud)

我可以使用它,但我不确定格式的一致性.我很确定charset可能完全丢失,所以我必须处理这个边缘情况.某种类型的字符串拆分操作使得"utf-8"从中看出来似乎是做错这种事情的错误方法.

>>> content_type_header = conn.headers.getheader('content-type')
>>> if '=' in content_type_header:
>>>  charset = content_type_header.split('=')[1]

Run Code Online (Sandbox Code Playgroud)

这种代码感觉就像做了太多的工作.我也不确定它是否适用于所有情况.有没有人有更好的方法来做到这一点？

python urllib2 httprequest character-encoding

Cla*_*ell

lucky-day

26
推荐指数

3
解决办法

4万
查看次数

与Python 3.4,Unicode,不同语言和Windows有什么关系？

快乐的例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

czech = u'Leoš Janá?ek'.encode("utf-8")
print(czech)

pl = u'Zdzis?aw Beksi?ski'.encode("utf-8")
print(pl)

jp = u'??? ?? ??'.encode("utf-8")
print(jp)

chinese = u'??'.encode("utf-8")
print(chinese)

MIR = u'?????? ??? ?????????? ????????'.encode("utf-8")
print(MIR)

pt = u'Minha Língua Portuguesa: çáà'.encode("utf-8")
print(pt)

Run Code Online (Sandbox Code Playgroud)

不愉快的输出:

b'Leo\xc5\xa1 Jan\xc3\xa1\xc4\x8dek'
b'Zdzis\xc5\x82aw Beksi\xc5\x84ski'
b'\xe3\x83\xaa\xe3\x83\xb3\xe3\x82\xb0 \xe5\xb1\xb1\xe6\x9d\x91 \xe8\xb2\x9e\xe5\xad\x90'
b'\xe4\xba\x94\xe8\xa1\x8c'
b'\xd0\x9c\xd0\xb0\xd1\x88\xd0\xb8\xd0\xbd\xd0\xb0 \xd0\xb4\xd0\xbb\xd1\x8f \xd0\x98\xd0\xbd\xd0\xb6\xd0\xb5\xd0\xbd\xd0\xb5\xd1\x80\xd0\xbd\xd1\x8b\xd1\x85 \xd0\xa0\xd0\xb0\xd1\x81\xd1\x87\xd1\x91\xd1\x82\xd0\xbe\xd0\xb2'
b'Minha L\xc3\xadngua Portuguesa: \xc3\xa7\xc3\xa1\xc3\xa0'

Run Code Online (Sandbox Code Playgroud)

如果我像这样打印它们:

jp = u'??? ?? ??'
print(jp)

Run Code Online (Sandbox Code Playgroud)

我明白了:

Traceback (most recent call last):
  File "x.py", line 5, in <module>
    print(jp)
  File …

Run Code Online (Sandbox Code Playgroud)

python unicode

Eri*_*ans

2017 05-23

24
推荐指数

2
解决办法

2万
查看次数

如何在新行字符上拆分python字符串

在Win7的python3中,我将网页读入字符串.

然后,我想将字符串拆分为换行符中的列表.

我不能在我的代码中输入换行符作为split()中的参数,因为我在扫描字符串文字时遇到语法错误'EOL'

如果我输入字符\和n,我会收到Unicode错误.

有什么办法吗？

python string split

use*_*305

lucky-day

17
推荐指数

2
解决办法

8万
查看次数

Pytesseract：UnicodeDecodeError：“charmap”编解码器无法解码字节

我使用 Pytesseract 对屏幕截图运行大量 OCR。这在大多数情况下运行良好，但少数情况会导致此错误：

pytesseract.image_to_string(image,None, False, "-psm 6")
Pytesseract: UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 2: character maps to <undefined>

Run Code Online (Sandbox Code Playgroud)

我正在使用Python 3.4。任何如何防止此错误发生的建议（不仅仅是尝试/例外）都会非常有帮助。

tesseract python-3.x python-unicode python-tesseract

Nic*_*ick

lucky-day

5
推荐指数

1
解决办法

5545
查看次数

在命令提示符/ Windows Powershell（Windows 10）中使用UTF-8编码（CHCP 65001）

我已经chcp 65001在命令提示符和Windows Powershell中强制使用了一段时间，但是从SO和其他几个社区的问答环节来看，这似乎是一种危险且低效的解决方案。Microsoft是否提供一种chcp 65001可以永久保存而无需手动更改注册表的改进/完整替代方案？如果没有，将来是否有公开宣布的时间表或议程来支持Windows CLI中的UTF-8？

我个人已经使用了chcp 949韩国字符支持，但反斜线的怪异显示\在多个应用程序（如Neovim），以及字符和不正确/难以理解的显示器是不是韩国未通过支持949似乎变得更加的最近有问题。

windows powershell utf-8 console-application

Pau*_*Kim

2019 07-21

5
推荐指数

2
解决办法

3580
查看次数

编解码器无法编码字符:字符映射到<undefined>

我尝试使用以下代码在python 2.7中读取docx文件:

import docx
document = docx.Document('sim_dir_administrativo.docx')
    docText = '\n\n'.join([
        paragraph.text.encode('utf-8') for paragraph in document.paragraphs])

Run Code Online (Sandbox Code Playgroud)

然后我尝试使用此代码解码文件中的字符串,因为我有一些特殊字符(例如ã):

print docText.decode("utf-8")

Run Code Online (Sandbox Code Playgroud)

但是,我收到了这个错误:

    return codecs.charmap_encode(input,errors,encoding_map)
UnicodeEncodeError: 'charmap' codec can't encode character u'\u2013' in position
 494457: character maps to <undefined>

Run Code Online (Sandbox Code Playgroud)

我怎么解决这个问题？

python

use*_*563

lucky-day

4
推荐指数

1
解决办法

9269
查看次数