小编mgr*_*ber的帖子

如果出现,则在分隔符上拆分列表的字符串

我从网页(在codecademy.com的项目中)获取HTML代码.提取导致文本.我分成了一个列表.

问题:某些结果包含Unicode字符,我想从它们出现的字符串中剪切出来.

['Normal String', 'Company\xc2\xae', 'againnormal', '\xc2\xb7']
Run Code Online (Sandbox Code Playgroud)

结果应如下所示:

['Normal String', 'Company', 'againnormal', '']
Run Code Online (Sandbox Code Playgroud)

或者理想情况下这样

['Normal String', 'Company', 'againnormal']
Run Code Online (Sandbox Code Playgroud)

python unicode loops list

1
推荐指数
1
解决办法
26
查看次数

Python - Unicode 和双反斜杠

我用 BeautifulSoup 删除了一个网页。我得到了很好的输出,除了列表的一部分在获取文本后看起来像这样:

list = [u'that\\u2019s', u'it\\u2019ll', u'It\\u2019s', u'don\\u2019t', u'That\\u2019s', u'we\\u2019re', u'\\u2013']
Run Code Online (Sandbox Code Playgroud)

我现在的问题是如何摆脱或用它们的特殊字符替换这些双反斜杠。

如果我打印示例列表的第一个元素,输出看起来像

print list[0]
that\u2019s
Run Code Online (Sandbox Code Playgroud)

我已经阅读了很多关于这个主题的其他问题/线程,但我最终更加困惑,因为我是一个考虑 unicode/编码/解码的初学者。

我希望有人能帮助我解决这个问题。

谢谢!MG

python unicode beautifulsoup backslash unicode-escapes

1
推荐指数
1
解决办法
6886
查看次数