Gee*_*ega 1 python regex web-scraping
我有以下描述我想要使用我的程序废料.
<hr>通过接触美国空军的职能,部署和就业运营,为AFROTC学员提供多达13种选择,以实现实际领导和专业培训.外语和文化沉浸也可用/可能,但总体重点仍然是领导力发展和实践.所有项目都在选定的空军基地以及美国和国外的其他地点进行.<br>
我有以下代码:
findDescription = re.findall('<hr>(.*?)(?:<strong>|<br>)', coursePage)
Run Code Online (Sandbox Code Playgroud)
我得到以下输出:
[通过接触美国空军的职能,部署和就业运营,为AFROTC学员提供多达13种实用领导和专业培训选项.\ xc2\xa0外语和文化沉浸也可用/可能,但总体重点仍然是领导力发展和实习.\xc2\xa0所有节目都在选定的空军基地以及美国和国外的其他地点进行.']
为什么我会\xc2\xa0在这里得到奇怪的东西?我的代码也会被引号符号绊倒".坦率地说,我相信.我的正则表达式代码中的句点应该接受所有字符串.出了什么问题?
我很欣赏任何快速提示.我星期五只听说过正则表达式而且我已经取得了巨大的进步,但是这个让我真的绊了几个小时.
温馨的问候,GeekyOmega
| 归档时间: |
|
| 查看次数: |
102 次 |
| 最近记录: |