som*_*me1 80 python split delimiter
这段代码几乎可以满足我的需要..
for line in all_lines:
s = line.split('>')
Run Code Online (Sandbox Code Playgroud)
除了它删除所有'>'分隔符.
所以,
<html><head>
Run Code Online (Sandbox Code Playgroud)
变成
['<html','<head']
Run Code Online (Sandbox Code Playgroud)
有没有办法使用split()方法但保留分隔符,而不是删除它?
有了这些结果..
['<html>','<head>']
Run Code Online (Sandbox Code Playgroud)
P.M*_*lch 44
d = ">"
for line in all_lines:
s = [e+d for e in line.split(d) if e]
Run Code Online (Sandbox Code Playgroud)
gb.*_*gb. 32
如果您使用拆分解析HTML,那么您很可能做错了,除非您正在编写针对固定且安全的内容文件的一次性脚本.如果它应该适用于任何HTML输入,你将如何处理类似的东西<a title='growth > 8%' href='#something'>
?
无论如何,以下对我有用:
>>> import re
>>> re.split('(<[^>]*>)', '<body><table><tr><td>')[1::2]
['<body>', '<table>', '<tr>', '<td>']
Run Code Online (Sandbox Code Playgroud)
Ósc*_*pez 16
这个怎么样:
import re
s = '<html><head>'
re.findall('[^>]+>', s)
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
71394 次 |
最近记录: |