无法转换为utf-8

Fla*_*kle 4 python utf-8

我有以下字符串列表:

['\ xe8\XBF\X99\XE6\X98\XAF\XE4\XB8\X80\XE4\XB8 \的Xaa\XE4\XBB\XA4\XE4\XBA\XBA\XE6\XB2\XAE\XE4\XB8\XA7\XE7\x9a\X84\XE6\X97\xa5\X82' ,'\ XE6\x9c\X89\XE4\XB8 \的Xaa\xe5\xb9\XB4\xe5\xb9\XBC\XE7\x9a\X84\xe5\x9f\xe5\x9c\xa8\XE7\X82\x8e\XE7\X82\x8e\XE7\X83\X88\XE6\X97\xa5\XB8\x8b\XE6\X99\X95\xe5\X80\X92\XE4\XBA\86\XE3\X80\X82' ,'\ xe8\X90\XBD\XE6\X97\xa5\x8a\x8a\xe5\XA4版权所有\ xA9\XE7版权所有\ xA9\XBA\XE6\x9f\X93\XE6\X88\X90\xe9 \的x87\X91\xe8\X89\XB2\XE3\X80\XE6\X97\xa5\x8a\x8a\xe5\XA4版权所有\ xA9\XE7版权所有\ xA9\XBA\XE6\x9f\X93\XE6\X88\X90\xe9 \的x87\X91\xe8\X89\XB2\XE3\X80\X82' ,'\ XE6\X98\x9f\XE6\x9c\x9f\XE6\X97\xa5\X98\XAF\XE4\XB8\X80\xe5\X91\xa8\XE7\x9a\X84\XE7\XAC\XAC\XE4\XB8\X80\xe5\XA4版权所有\ xA9\XE3\X80\XE6\x9c\x9f\XE6\X97\xa5\X98\XAF\XE4\XB8\X80\xe5\X91\xa8\XE7\x9a\X84\XE7\XAC\XAC\XE4\XB8\X80\xe5\XA4版权所有\ xA9\XE3\X80\X82' ,'\ xe5\x8d\X81\XE6\x9c\X88\XE4\XB8\X80\XE6\X97\xa5\X98\XAF\XE4\XB8\XE7\x9a\X84\xe5\x9b\XBD\xe5\XBA\86\xe8\x8a\X82\XE3\X80\X82' ,'\ xe5\x9c\xa8\XE6\X97\xa5\x9c\XAC\XEF\XBC\x8c\XE6\XA3\X92\XE7\X90\X83\XE6\XAF\X94\xe5\X85\XB6\XE 4\XBB\X96\XE4\XBB\XBB\XE4\XBD\X95\xe8\XBF\X90\xe5\x8a\xa8\xe9\X83\XBD\xe5\X8F\X97\XE4\XBA\XBA\XE6\XAC\XA2\xe8\XBF\x8e\XE3\X80\XE6\X97\xa5\x9c\XAC\XEF\XBC\x8c\XE6\XA3\X92\XE7\X90\X83\XE6\XAF\X94\xe5\X85\XB6\XE4\XBB\X96\XE4\XBB\XBB\XE4\XBD\X95\xe8\XBF\X90\xe5\x8a\xa8\xe9\X83\XBD\xe5\X8F\X97\XE4\XBA\XBA\XE6\XAC\XA2\xe8\XBF\x8e\XE3\X80\X82' ,'\ xe8\XBF\X99\XE6\X98\XAF\XE6\XAF\X8F\xe5\XAE\X89\XE6\X81\XAF\XE6\X97\xa5\XBC\x8c\xe9\X99\XA4\XE6\X97\xa5\xe5\XB8\XB8\XE7\x9a\X84\xe5\X85\xa8\XE7 \的x87\X94\XE7\xa5\xe5\xa5\XA0\XE7\xa5\XAD\xe5\XA4\X96\XEF\XBC\x8c\xe5\XBA\X94\XE7\x8c\XAE\XE7\x9a\X84\xe5\XAE\X89\XE6\X81\XAF\XE6\X97\xa5\xe5\X85\xa8\XE7 \的x87\X94\XE7\xa5\XAD\XE3\X80\X82' ,'\ XE6\x9c\X89\XE6\X97\XB6\xe5\X80\X99\XEF\XBC\x8c\xe5\X8F \的Xaa\XE6\x9c\X89\xe9\X83\xa8\xe5\X88\86\XE6\X97\xa5\XBD\XAE\xe8\XA2\XAB\xe9\X81\XAE\XE6\x8c\XA1\XE4\XBD\X8F\XEF\XBC\x8c\xe9\X82\XA3\xe5\XB0\XB1\XE4\XB8\x8d\XE6\X98\XAF\XE6\X97\xa5\xe5\X85\xa8\xe9\XA3\x9f\XEF\XBC\x8c\xe8\X80\x8c\XE6\X98\XAF\XE6\X97\xa5\xe5\X81\X8F\xe9\XA3\x9f\XE3\X80\XE6\X97\XB6\xe5\X80\X99\XEF\XBC\x8c\xe5\X8F \的Xaa\XE6\x9c\X89\xe9\X83\xa8\xe5\X88\86\XE6\X97\xa5\XBD\XAE\xe8\XA2\XAB\xe9\X81\XAE\XE6\x8c\XA1\XE4\XBD\X8F\XEF\XBC\x8c\xe9\X82\XA3\xe5\XB0\XB1\XE4\XB8\x8d\XE6\X98\XAF\XE6\X97\xa5\xe5\X85\xa8\xe9\XA3\x9f\XEF\XBC\x8c\xe8\X80\x8c\XE6\X98\XAF\XE6\X97\xa5\xe5\X81\X8F\xe9\XA3\x9f\XE3\X80\X82' ,'\ XE4\XBA\x8b\XE4\XBB\XB6\xe5\X8F\X91\XE7\X94\x9f\XE6\X97\xa5\X8F\XAF\XE6\x8c \的x87\xe5\XAE\x9a\XE4\XB8\XBA\xe5\X91\xa8\xe5\86\X85\XE6\x9f\X90\XE6\X97\xa5\XE6\X88\X96\XE6\x9c\X88\xe5\86\X85\XE6\x9f\X90\XE6\X97\xa5\XE3\X80\XE4\XBB\XB6\xe5\X8F\X91\XE7\X94\x9f\XE6\X97\xa5\X8F\XAF\XE6\x8c \的x87\xe5\XAE\x9a\XE4\XB8\XBA\xe5\X91\xa8\xe5\86\X85\XE6\x9f\X90\XE6\X97\xa5\XE6\X88\X96\XE6\x9c\X88\xe5\86\X85\XE6\x9f\X90\XE6\X97\xa5\XE3\X80\X82' ]

该程序一直给我这个错误:

UnicodeDecodeError:'utf8'编解码器无法解码位置30中的字节0xad:无效的起始字节

我正在使用这段代码来浏览列表并尝试转换,new_sentences列表在哪里:

for i in range(0,len(new_sentences)):
    stuff = new_sentences[i].strip()
    stuff = unicode(stuff,"utf8")
Run Code Online (Sandbox Code Playgroud)

我已经浏览了列表,但找不到无法转换的字节.我知道它很长,但任何帮助都会受到赞赏.谢谢.

Tim*_*ker 6

您的字符串包含无效字节(\x82例如),这使得UTF-8不可翻译.您可以使用忽略无效字节

stuff = unicode(stuff, "utf8", errors="ignore")
Run Code Online (Sandbox Code Playgroud)

但修复这些无效字符的来源会更有意义.