如何使用Python过滤文件中的数据?

use*_*259 0 python parsing filter

我正在尝试从HTML文件中过滤某些数据.例如,HTML文件如下:

<tr><td valign="top"><img src="/icons/unknown.gif" alt="[   ]">software_0.1-0.log</td><td align="right">17-Nov-2009 13:46  </td><td align="right">186K</td></tr>
Run Code Online (Sandbox Code Playgroud)

我需要提取software_0.1-0部分以及2009年11月17日的部分.我怎样才能做到这一点?

非常感谢.

Mar*_*ers 6

BeautifulSoup很容易:

html = '''<tr><td valign="top"><img src="/icons/unknown.gif" alt="[   ]">software_0.1-0.log</td><td align="right">17-Nov-2009 13:46  </td><td align="right">186K</td></tr>'''

import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(html)
print soup.td.next.next
print soup.td.nextSibling.next
Run Code Online (Sandbox Code Playgroud)

输出:

software_0.1-0.log
17-Nov-2009 13:46
Run Code Online (Sandbox Code Playgroud)