Ben*_*ing 1 html python regex beautifulsoup
我有一个文件夹的Web索引视图...
<ul><li><a href="/sustainabilitymedia/pics/s5/"> Parent Directory</a></li>
<li><a href="n150850_.jpg"> n150850_.jpg</a></li>
<li><a href="n150850_ss.jpg"> n150850_ss.jpg</a></li>
<li><a href="n150850q.jpg"> n150850q.jpg</a></li>
<li><a href="n150858_.jpg"> n150858_.jpg</a></li>
<li><a href="n150858_ss.jpg"> n150858_ss.jpg</a></li>
<li><a href="n150858q.jpg"> n150858q.jpg</a></li>
<li><a href="n150906_.jpg"> n150906_.jpg</a></li>
<li><a href="n150906_ss.jpg"> n150906_ss.jpg</a></li>
...
Run Code Online (Sandbox Code Playgroud)
列表一直在继续.我的目标是只抓取结尾的列表项,_ss.jpg以便我可以渲染我的结果并在页面上很好地显示它们以进行演示.
我可以使用BeautifulSoup抓取页面,但从那里,我不知道如何过滤掉只匹配特定模式的列表项.该页面位于Basic Auth之后,我在之前关于BeautifulSoup的问题中已经解决了这个问题.我很高兴不使用它.
有任何想法吗?
| 归档时间: |
|
| 查看次数: |
691 次 |
| 最近记录: |