我正在使用PHP Simple HTML DOM Parser来抓取网店的一些数据(也运行XAMPP 1.7.2和PHP5.3.0),而且我遇到了<tbody>tag的问题.该表的结构是必要的(细节并不是那么重要):
<table>
<thead>
<!--text here-->
</thead>
<tbody>
<!--text here-->
</tbody>
</table>
Run Code Online (Sandbox Code Playgroud)
现在,我正在尝试<tbody>使用代码进入该部分:
$element = $html->find('tbody',0)->innertext;
Run Code Online (Sandbox Code Playgroud)
它不会抛出任何错误,它只是在我试图回应时没有打印出来.我测试过的其他元素的代码,<thead>,<table>,甚至有点像<span class="price">,他们都做工精细(ofcourse,删除" 0"失败的代码).他们都给出了正确的部分.Outertext同上.但一切都失败了<tbody>.
现在,我已经浏览了Parser,但我不确定我是否能解决它.我注意到<thead>甚至没有提到,但它工作正常.耸
我想我可以尝试做儿童导航,但这似乎也有问题.我刚试过跑:
$el = $html->find('table',0);
$el2 = $el->children(2);
echo $el2->outertext;
Run Code Online (Sandbox Code Playgroud)
而且没有骰子.试图替换children用first_child和2 1,和仍然没有骰子.有趣的是,如果我尝试->find而不是children,它的效果非常好.
我非常有信心我可以找到一个解决方案,但这种行为似乎很奇怪,可以在这里发布.我好奇的心灵很高兴得到所有的帮助.
我有不同格式的html [amp; src] => image,另一个[posthtml] => image2,anothertwo [nbsp; image3
如何使用常见的preg_match()提取img和文本,通过它我们可以从html中获得完美的图像src和文本.如果使用preg_match()是不可能的,还有其他方法可以解决它.如果有人知道,请回复.如何解决它.我需要你的手.
我想根据类或id获取图像中的src.防爆.在html页面上有很多<img src="url">但只有一个有类或id:
<img src="url" class="image" or id="image">
如何获得具有特定类或id的正确src属性?请正则表达式不是dom
我将解释你为什么我不想使用dom或其他库,因为我从其他站点获得一个不允许fopen或_file_get_contents或DOM的html页面,但只有Curl可以这样做.当然我有理由不使用像simplehtmldom这样的库,因为有时候不可能获得远程html页面,我应该自己制作一些脚本.
我有一个变量$ content,包含这种形式的一些文本和图像(未知数量的图像):
text text text text <img src="path/to/image/1">text text text text
<img src="path/to/image/2">
text text text text text text text text text text text text text text text text <img src="path/to/image/3"><img src="path/to/image/4">text text text text
<img src="path/to/image/5">
Run Code Online (Sandbox Code Playgroud)
我想提取所有图像src并使用php将它们存储在数组中,如下所示:
array(
[1]="path/to/image/1"
[2]="path/to/image/2"
[3]="path/to/image/3"
[4]="path/to/image/4"
[5]="path/to/image/5"
.
.
.
)
Run Code Online (Sandbox Code Playgroud)
做这样的事情的最佳方法是什么.我已经尝试过爆炸功能,但这种方式似乎效率低下.
我喜欢HTML
<td class="td_scheda_modello_dati">
<img src="/webapp/safilo/gen_img/p_verde.gif" width="15" height="15" alt="" border="0">
</td>
Run Code Online (Sandbox Code Playgroud)
我想使用preg_match_all()从这个HTML中提取img src.
我做到了这一点
preg_match_all('#<td class=td_scheda_modello_dati>(.*)<td>#',$detail,$detailsav);
Run Code Online (Sandbox Code Playgroud)
它应该给整个img标签.但是它没有给我img标签.那么应该做些什么改变来获得具体的价值呢?
我需要一个RegEx模式来提取图像标记的所有属性.
众所周知,那里存在大量格式错误的HTML,因此模式必须涵盖这些可能性.
我正在寻找这个解决方案/sf/ask/9681941/但它并没有完全得到它:
我提出的事情如下:
(alt|title|src|height|width)\s*=\s*["'][\W\w]+?["']
Run Code Online (Sandbox Code Playgroud)
是否有任何可能性我会丢失或更有效的简单模式?
编辑:
对不起,我将更具体,我正在使用.NET这样做,所以它在服务器端.
我已经有了一个img标签列表,现在我只需要解析属性.