lec*_*tif 0 html php html-content-extraction
我想使用PHP从大型HTML页面中提取超过100个单词的文本块.文本是否包含<p>...</p>无关紧要.我只关心构成连贯文本块的单词数量,因此也应考虑HTML段落之外的文本.
如何才能做到这一点?
我用phpQuery.你熟悉jQuery吗?他们共享相同的语法.您可能会担心安装一个新库,但请相信我这个库非常值得额外考虑
然后,您可以像这样访问它:
foreach($doc->find('p') as $element){
$element = pq($element);
echo str_word_count($element->text());
}
Run Code Online (Sandbox Code Playgroud)