我安装了Ruby和Mechanize.在我看来,Nokogiri可以做我想做的事,但我不知道该怎么做.
那怎么样table?它只是vBulletin论坛网站HTML的一部分.我试图保留HTML结构,但删除了一些文本和标记属性.我想获得每个帖子的一些细节:标题,作者,日期,时间,回复和视图.
请注意HTML文档中的表格很少?我正在追寻一张特别的桌子tbody,<tbody id="threadbits_forum_251">.名称将始终相同(我希望).我可以在代码中使用tbody和name吗?
<table >
<tbody>
<tr> <!-- table header --> </tr>
</tbody>
<!-- show threads -->
<tbody id="threadbits_forum_251">
<tr>
<td></td>
<td></td>
<td>
<div>
<a href="showthread.php?t=230708" >Vb4 Gold Released</a>
</div>
<div>
<span><a>Paul M</a></span>
</div>
</td>
<td>
06 Jan 2010 <span class="time">23:35</span><br />
by <a href="member.php?find=lastposter&t=230708">shane943</a>
</div>
</td>
<td><a href="#">24</a></td>
<td>1,320</td>
</tr>
</tbody>
</table>
Run Code Online (Sandbox Code Playgroud) 我是XPath的新手,对我来说似乎有点棘手; 有时候我发现它的工作方式不符合我的想法.
当我使用XPath和Nokogiri从网站上搜索数据时,如果网站结构复杂,我觉得很难.我使用FirePath来获取元素的XPath,但有时它似乎不起作用.我必须删除浏览器添加的额外标签,例如tbody.
我真的想知道是否有一些很好的教程和XPath和Nokogiri的例子.谷歌搜索后我找不到多少.