nin*_*alf 6 python regex screen-scraping beautifulsoup web-scraping
我正在尝试使用 Python 抓取网站。我导入并使用 urllib2、BeautifulSoup 和 re 模块。
response = urllib2.urlopen(url)
soup = BeautifulSoup(response)
responseString = str(soup)
coarseExpression = re.compile('<div class="sodatext">[\n]*.*[\n]*</div>')
coarseResult = coarseExpression.findall(responseString)
fineExpression = re.compile('<[^>]*>')
fineResult = []
for coarse in coarseResult:
fine = fineExpression.sub('', coarse)
#print(fine)
fineResult.append(fine)
Run Code Online (Sandbox Code Playgroud)
不幸的是,像撇号这样的字符以损坏的方式出现,就像这样 - ' ; 有办法避免这种情况吗?或者有什么方法可以轻松替换它们?
您应该寻找以下有关实体转换的 BeautifulSoup 文档:
http://www.crummy.com/software/BeautifulSoup/documentation.html#Entity%20Conversion
归档时间: |
|
查看次数: |
38534 次 |
最近记录: |