我正在使用QueryPath和PHP.
这可以找到.eventdate,但不会返回.dtstart的任何内容:
$qp = htmlqp($url);
foreach ($qp->find('table#schedule')->find('tr') as $tr){
echo 'date: ';
echo $tr->find('.eventdate')->text();
echo ' time: ';
echo $tr->find('.dtstart')->text();
echo '<br>';
}
Run Code Online (Sandbox Code Playgroud)
如果我交换这两个,.dtstart工作正常,但.eventdate不会返回任何内容.因此,似乎querypath中的find()会破坏元素并仅返回它所需的值,使得迭代超过$ tr无法搜索多个项目.
这是我正在处理的TR的示例HTML:
<tr class="event"><th class="date first" scope="row"><abbr class="eventdate" title="Thursday, February 01, 2011" >02/01</abbr><span class="eventtime" ><abbr class="dtstart" title="2012-02-01T19:00:00" >7:00 PM</abbr><abbr class="dtend" title="2012-02-01T21:00:00" >9:00 PM</abbr></span></th><td class="opponent summary"><ul><li class="first">@ <a class="team" href="/high-schools/ridge-wolves/basketball-winter-11-12/schedule.htm" >Ridge </a> <span class="game-note">*</span></li><li class="location" title="Details: Ridge High School">Details: Ridge High School</li><li class="last"><a class="" href="/local/stats/pregame.aspx?contestid=4255-4c6c-906d&ssid=381d-49f5-9f6d" >Preview Game</a></li></ul></td><td class="result last"><a class="pregame" href="/local/stats/pregame.aspx?contestid=4255-4c6c-906d&ssid=381d-49f5-9f6d">Preview</a></td></tr>
Run Code Online (Sandbox Code Playgroud)
我尝试在第一次找到之前复制$ tr并在第二次找到之前替换它,但这不起作用.
如何在每个$ tr期间搜索某些变量?
仅供参考,超过.eventdate和.dtstart,我也想要.opponent,href在a对手和a锚文本之下.
小智 9
出于性能原因,QueryPath在内部维护其状态(与jQuery不同).这branch()是要走的路.
但是,作为对提议的解决方案的修改,我建议通过这样做来最小化find()调用的数量:
$qp = htmlqp($url);
foreach ($qp->find('table#schedule tr') as $tr){
echo 'date: ';
echo $tr->branch('.eventdate')->text();
echo ' time: ';
echo $tr->branch('.dtstart')->text();
echo '<br>';
}
Run Code Online (Sandbox Code Playgroud)
最后,无论何时进行"破坏性"操作(如a find()),您都可以随时返回一步end().所以上面也可以这样做:
$qp = htmlqp($url);
foreach ($qp->find('table#schedule tr') as $tr){
echo 'date: ';
echo $tr->find('.eventdate')->text();
echo ' time: ';
echo $tr->end()->find('.dtstart')->text();
echo '<br>';
}
Run Code Online (Sandbox Code Playgroud)
这是一个非常非常小的性能改进,但我更喜欢该branch()方法,除非我使用大于1M的文档.
在QueryPath 3.x中,它有一大堆新的性能增强功能,我正在考虑使用jQuery方法为每个函数创建一个新对象.不幸的是,这种方法将使用更多的内存,所以我可能不会保留它.虽然branch()需要一点时间来学习,但它确实有其优点.
我自己只是学习QueryPath,但我认为你应该分支行对象.否则,$tr->find('.eventdate')会将您带到abbr行中包含的元素,并且每个后续find()将尝试查找下面的元素abbr,从而导致不匹配.branch()(请参阅文档)创建QueryPath对象的副本,使原始对象(在本例中$tr)保持不变.
所以你的代码是:
$qp = htmlqp($url);
foreach ($qp->find('table#schedule')->find('tr') as $tr){
echo 'date: ';
echo $tr->branch()->find('.eventdate')->text();
echo ' time: ';
echo $tr->branch()->find('.dtstart')->text();
echo '<br>';
}
Run Code Online (Sandbox Code Playgroud)
我不知道这是否是实现你想要的首选方式,但似乎有效.