查询:为什么我的正则表达式代码不能读取所有字符？

Question

我有以下描述我想要使用我的程序废料.

<hr>通过接触美国空军的职能,部署和就业运营,为AFROTC学员提供多达13种选择,以实现实际领导和专业培训.外语和文化沉浸也可用/可能,但总体重点仍然是领导力发展和实践.所有项目都在选定的空军基地以及美国和国外的其他地点进行.<br>

我有以下代码:

findDescription = re.findall('<hr>(.*?)(?:<strong>|<br>)', coursePage)

我得到以下输出:

[通过接触美国空军的职能,部署和就业运营,为AFROTC学员提供多达13种实用领导和专业培训选项.\ xc2\xa0外语和文化沉浸也可用/可能,但总体重点仍然是领导力发展和实习.\xc2\xa0所有节目都在选定的空军基地以及美国和国外的其他地点进行.']

为什么我会\xc2\xa0在这里得到奇怪的东西？我的代码也会被引号符号绊倒".坦率地说,我相信.我的正则表达式代码中的句点应该接受所有字符串.出了什么问题？

我很欣赏任何快速提示.我星期五只听说过正则表达式而且我已经取得了巨大的进步,但是这个让我真的绊了几个小时.

温馨的问候,GeekyOmega

Answer 1

\ xC2\xA0是unicode字符0xA0的UTF-8编码,通常写为在html文件中.