我有一个表,我正在检索每个表行:
$(function(){
$('table tr').click(function(){
var $row = $(this).html();
alert($row);
});
});
Run Code Online (Sandbox Code Playgroud)
这让我得到这样的当前行:
<td>2</td>
<td>Malcriado</td>
<td>Bota</td>
<td>Tipo2</td>
<td>NuevaDesc</td>
<td>NuevaDesc</td>
<td></td>
<td>Cerdo</td>
<td>Azul</td>
<td>oso</td>
<td>Rojo</td>
<td>12</td>
<td>metal</td>
<td>sss</td>
<td></td>
<td>Delicias</td>
Run Code Online (Sandbox Code Playgroud)
我接下来要完成的是删除td并获取其间的值并将它们放入数组中,但我无法实现此目的.有任何想法吗?
我需要一个RegEx模式来提取图像标记的所有属性.
众所周知,那里存在大量格式错误的HTML,因此模式必须涵盖这些可能性.
我正在寻找这个解决方案/sf/ask/9681941/但它并没有完全得到它:
我提出的事情如下:
(alt|title|src|height|width)\s*=\s*["'][\W\w]+?["']
Run Code Online (Sandbox Code Playgroud)
是否有任何可能性我会丢失或更有效的简单模式?
编辑:
对不起,我将更具体,我正在使用.NET这样做,所以它在服务器端.
我已经有了一个img标签列表,现在我只需要解析属性.
如何从HTML文件中提取所有文本
我想提取所有文本,alt属性,<p>标签等.
但是我不想在样式和脚本标签之间提取文本
谢谢
现在我有以下代码
<?PHP
$string = trim(clean(strtolower(strip_tags($html_content))));
$arr = explode(" ", $string);
$count = array_count_values($arr);
foreach($count as $value => $freq) {
echo trim ($value)."---".$freq."<br>";
}
function clean($in){
return preg_replace("/[^a-z]+/i", " ", $in);
}
?>
Run Code Online (Sandbox Code Playgroud)
这很好,但它检索我不想检索的脚本和样式标签,另一个问题我不确定它是否确实检索了alt这样的属性 - 因为strip_tags函数可能会删除所有HTML标签及其属性
谢谢
我想使用PHP从大型HTML页面中提取超过100个单词的文本块.文本是否包含<p>...</p>无关紧要.我只关心构成连贯文本块的单词数量,因此也应考虑HTML段落之外的文本.
如何才能做到这一点?
我正在尝试访问.html文件并在<p>标签中提取文本.从逻辑上讲,我的代码应该可行.通过使用HTML :: TreeBuilder.我解析html然后<p>使用find_by_attribute("p")提取文本.但是我的脚本出现了空目录.我遗漏了什么吗?
#!/usr/bin/perl
use strict;
use HTML::TreeBuilder 3;
use FileHandle;
my @task = ('ar','cn','en','id','vn');
foreach my $lang (@task) {
mkdir "./extract_$lang", 0777 unless -d "./extract_$lang";
opendir (my $dir, "./$lang/") or die "$!";
my @files = grep (/\.html/,readdir ($dir));
closedir ($dir);
foreach my $file (@files) {
open (my $fh, '<', "./$lang/$file") or die "$!";
my $root = HTML::TreeBuilder->new;
$root->parse_file("./$lang/$file");
my @all_p = $root->find_by_attribute("p");
foreach my $p (@all_p) {
my $ptag = HTML::TreeBuilder->new_from_content ($p->as_HTML);
my $filewrite = …Run Code Online (Sandbox Code Playgroud) html perl text-extraction html-content-extraction htmlcleaner
我的页面有很多div <a href>用于打开modalboxes(colorbox).这些链接打开的页面有一个id="mainColumn".只需从此ID加载内容.
<div>
<a href="includes/page_1.html" class="pop"></a>
</div>
<div>
<a href="includes/page_2.html" class="pop"></a>
</div>
<div>
<a href="includes/page_3.html" class="pop"></a>
</div>
$(".pop").colorbox({
href: $(".pop").attr('href') + " #mainColumn"
});
Run Code Online (Sandbox Code Playgroud)
在的人的href的<a>的变化进入第一个...
因此,将/ page_3.html更改为includes/page_1.html或换句话说:所有模态框都显示相同的内容...
$(this) 给我内容未定义
任何帮助都会感激,谢谢
我想从会员列表页面收集用户名,如下所示:http: //www.marksdailyapple.com/forum/memberslist/
我想从所有页面获取每个用户名,
我想用bash在linux中做这个
我应该从哪里开始,有人可以给我一些提示吗?
我不关心库是什么,但我需要一种方法从页面的<.body.>中提取<.script.>元素(作为字符串).然后我想在<./ body.>之前插入提取的<.script.>.
理想情况下,我想将<.script.> s提取为2种类型;
1)外部(具有src属性的那些)2)嵌入式(代码在<.script.> <./ script.>之间)
到目前为止,我已经尝试过phpDOM,Simple HTML DOM和Ganon.
我对它们中的任何一个都没有运气(我可以找到链接并删除/打印它们 - 但每次都失败了脚本!).
替代
/sf/ask/1639042121/
(很抱歉重新发布,但已经过了24小时的尝试和失败,使用替代库,失败更多等).
基于来自@ alreadycoded.com的可爱的RegEx答案,我设法将以下内容整合在一起;
$output = "<html><head></head><body><!-- Your stuff --></body></html>"
$content = '';
$js = '';
// 1) Grab <body>
preg_match_all('#(<body[^>]*>.*?<\/body>)#ims', $output, $body);
$content = implode('',$body[0]);
// 2) Find <script>s in <body>
preg_match_all('#<script(.*?)<\/script>#is', $content, $matches);
foreach ($matches[0] as $value) {
$js .= '<!-- Moved from [body] --> '.$value;
}
// 3) Remove <script>s from <body>
$content2 = preg_replace('#<script(.*?)<\/script>#is', '<!-- Moved to [/body] -->', $content); …Run Code Online (Sandbox Code Playgroud) 有任何方法可以提取以php HTML开头<body>和结尾的页面内容</body>.如果有人可以发布一些示例代码.
html ×4
php ×4
jquery ×2
regex ×2
.net ×1
bash ×1
colorbox ×1
dom ×1
html-table ×1
htmlcleaner ×1
linux ×1
modal-dialog ×1
parsing ×1
perl ×1