小编mgr*_*ber的帖子

我从网页(在codecademy.com的项目中)获取HTML代码.提取导致文本.我分成了一个列表.

问题:某些结果包含Unicode字符,我想从它们出现的字符串中剪切出来.

['Normal String', 'Company\xc2\xae', 'againnormal', '\xc2\xb7']

结果应如下所示:

['Normal String', 'Company', 'againnormal', '']

或者理想情况下这样

['Normal String', 'Company', 'againnormal']

1
推荐指数

1
解决办法

26
查看次数

我用 BeautifulSoup 删除了一个网页。我得到了很好的输出，除了列表的一部分在获取文本后看起来像这样：

list = [u'that\\u2019s', u'it\\u2019ll', u'It\\u2019s', u'don\\u2019t', u'That\\u2019s', u'we\\u2019re', u'\\u2013']

我现在的问题是如何摆脱或用它们的特殊字符替换这些双反斜杠。

如果我打印示例列表的第一个元素，输出看起来像

print list[0]
that\u2019s

我已经阅读了很多关于这个主题的其他问题/线程，但我最终更加困惑，因为我是一个考虑 unicode/编码/解码的初学者。

我希望有人能帮助我解决这个问题。

谢谢！MG

1
推荐指数

1
解决办法

6886
查看次数

小编mgr_ber的帖子