如何使用Python过滤文件中的数据？

Question

如何使用Python过滤文件中的数据？

我正在尝试从HTML文件中过滤某些数据.例如,HTML文件如下:

<tr><td valign="top"><img src="/icons/unknown.gif" alt="[   ]">software_0.1-0.log</td><td align="right">17-Nov-2009 13:46  </td><td align="right">186K</td></tr>

Run Code Online (Sandbox Code Playgroud)

我需要提取software_0.1-0部分以及2009年11月17日的部分.我怎样才能做到这一点？

非常感谢.

Answer 1

Mar*_*ers 6

BeautifulSoup很容易:

html = '''<tr><td valign="top"><img src="/icons/unknown.gif" alt="[   ]">software_0.1-0.log</td><td align="right">17-Nov-2009 13:46  </td><td align="right">186K</td></tr>'''

import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(html)
print soup.td.next.next
print soup.td.nextSibling.next

Run Code Online (Sandbox Code Playgroud)

输出:

software_0.1-0.log
17-Nov-2009 13:46

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，9 月前
查看次数：	567 次
最近记录：	15 年，9 月前