use*_*259 0 python parsing filter
我正在尝试从HTML文件中过滤某些数据.例如,HTML文件如下:
<tr><td valign="top"><img src="/icons/unknown.gif" alt="[ ]">software_0.1-0.log</td><td align="right">17-Nov-2009 13:46 </td><td align="right">186K</td></tr>
Run Code Online (Sandbox Code Playgroud)
我需要提取software_0.1-0部分以及2009年11月17日的部分.我怎样才能做到这一点?
非常感谢.
BeautifulSoup很容易:
html = '''<tr><td valign="top"><img src="/icons/unknown.gif" alt="[ ]">software_0.1-0.log</td><td align="right">17-Nov-2009 13:46 </td><td align="right">186K</td></tr>'''
import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(html)
print soup.td.next.next
print soup.td.nextSibling.next
Run Code Online (Sandbox Code Playgroud)
输出:
software_0.1-0.log
17-Nov-2009 13:46
Run Code Online (Sandbox Code Playgroud)