我从网页(在codecademy.com的项目中)获取HTML代码.提取导致文本.我分成了一个列表.
问题:某些结果包含Unicode字符,我想从它们出现的字符串中剪切出来.
['Normal String', 'Company\xc2\xae', 'againnormal', '\xc2\xb7']
Run Code Online (Sandbox Code Playgroud)
结果应如下所示:
['Normal String', 'Company', 'againnormal', '']
Run Code Online (Sandbox Code Playgroud)
或者理想情况下这样
['Normal String', 'Company', 'againnormal']
Run Code Online (Sandbox Code Playgroud) 我用 BeautifulSoup 删除了一个网页。我得到了很好的输出,除了列表的一部分在获取文本后看起来像这样:
list = [u'that\\u2019s', u'it\\u2019ll', u'It\\u2019s', u'don\\u2019t', u'That\\u2019s', u'we\\u2019re', u'\\u2013']
Run Code Online (Sandbox Code Playgroud)
我现在的问题是如何摆脱或用它们的特殊字符替换这些双反斜杠。
如果我打印示例列表的第一个元素,输出看起来像
print list[0]
that\u2019s
Run Code Online (Sandbox Code Playgroud)
我已经阅读了很多关于这个主题的其他问题/线程,但我最终更加困惑,因为我是一个考虑 unicode/编码/解码的初学者。
我希望有人能帮助我解决这个问题。
谢谢!MG