标签: html-content-extraction

如何获取使用jQuery提取的行的值

我有一个表,我正在检索每个表行:

$(function(){
        $('table tr').click(function(){
            var $row = $(this).html();
            alert($row);
        });
    });
Run Code Online (Sandbox Code Playgroud)

这让我得到这样的当前行:

<td>2</td>
<td>Malcriado</td>
<td>Bota</td>
<td>Tipo2</td>
<td>NuevaDesc</td>
<td>NuevaDesc</td>
<td></td>
<td>Cerdo</td>
<td>Azul</td>
<td>oso</td>
<td>Rojo</td>
<td>12</td>
<td>metal</td>
<td>sss</td>
<td></td>
<td>Delicias</td>
Run Code Online (Sandbox Code Playgroud)

我接下来要完成的是删除td并获取其间的值并将它们放入数组中,但我无法实现此目的.有任何想法吗?

jquery html-table html-content-extraction

1
推荐指数
1
解决办法
511
查看次数

RegEx用于提取HTML图像属性

我需要一个RegEx模式来提取图像标记的所有属性.

众所周知,那里存在大量格式错误的HTML,因此模式必须涵盖这些可能性.

我正在寻找这个解决方案/sf/ask/9681941/但它并没有完全得到它:

我提出的事情如下:

(alt|title|src|height|width)\s*=\s*["'][\W\w]+?["']
Run Code Online (Sandbox Code Playgroud)

是否有任何可能性我会丢失或更有效的简单模式?

编辑:
对不起,我将更具体,我正在使用.NET这样做,所以它在服务器端.
我已经有了一个img标签列表,现在我只需要解析属性.

.net html regex html-content-extraction

0
推荐指数
1
解决办法
2123
查看次数

如何使用PHP从HTML文件中提取所有文本?

如何从HTML文件中提取所有文本

我想提取所有文本,alt属性,<p>标签等.

但是我不想在样式和脚本标签之间提取文本

谢谢

现在我有以下代码

    <?PHP
    $string =  trim(clean(strtolower(strip_tags($html_content))));
    $arr = explode(" ", $string);
    $count = array_count_values($arr);
    foreach($count as $value => $freq) {
          echo trim ($value)."---".$freq."<br>";
    }

    function clean($in){
           return preg_replace("/[^a-z]+/i", " ", $in);
    }

    ?>
Run Code Online (Sandbox Code Playgroud)

这很好,但它检索我不想检索的脚本和样式标签,另一个问题我不确定它是否确实检索了alt这样的属性 - 因为strip_tags函数可能会删除所有HTML标签及其属性

谢谢

html php regex parsing html-content-extraction

0
推荐指数
1
解决办法
3412
查看次数

如何从HTML页面中提取文本块?

我想使用PHP从大型HTML页面中提取超过100个单词的文本块.文本是否包含<p>...</p>无关紧要.我只关心构成连贯文本块的单词数量,因此也应考虑HTML段落之外的文本.

如何才能做到这一点?

html php html-content-extraction

0
推荐指数
1
解决办法
1338
查看次数

使用HTML :: TreeBuilder从HTML中提取文本 - Perl

我正在尝试访问.html文件并在<p>标签中提取文本.从逻辑上讲,我的代码应该可行.通过使用HTML :: TreeBuilder.我解析html然后<p>使用find_by_attribute("p")提取文本.但是我的脚本出现了空目录.我遗漏了什么吗?

#!/usr/bin/perl

use strict;
use HTML::TreeBuilder 3;
use FileHandle;

my @task = ('ar','cn','en','id','vn');

foreach my $lang (@task) {
mkdir "./extract_$lang", 0777 unless -d "./extract_$lang";
opendir (my $dir, "./$lang/") or die "$!";
my @files = grep (/\.html/,readdir ($dir));
closedir ($dir);

foreach my $file (@files) {
    open (my $fh, '<', "./$lang/$file") or die "$!";
    my $root = HTML::TreeBuilder->new;
    $root->parse_file("./$lang/$file");
    my @all_p = $root->find_by_attribute("p");
    foreach my $p (@all_p) {
        my $ptag = HTML::TreeBuilder->new_from_content ($p->as_HTML);
        my $filewrite = …
Run Code Online (Sandbox Code Playgroud)

html perl text-extraction html-content-extraction htmlcleaner

0
推荐指数
1
解决办法
2830
查看次数

从页面的href中加载div ..

我的页面有很多div <a href>用于打开modalboxes(colorbox).这些链接打开的页面有一个id="mainColumn".只需从此ID加载内容.

<div>                       
<a href="includes/page_1.html" class="pop"></a>
</div>

<div>                       
<a href="includes/page_2.html" class="pop"></a>
</div>

<div>                       
<a href="includes/page_3.html" class="pop"></a>
</div>


 $(".pop").colorbox({
    href: $(".pop").attr('href') + " #mainColumn"
    });
Run Code Online (Sandbox Code Playgroud)

在的人的href的<a>的变化进入第一个...

因此,将/ page_3.html更改为includes/page_1.html或换句话说:所有模态框都显示相同的内容...

$(this) 给我内容未定义

任何帮助都会感激,谢谢

jquery modal-dialog colorbox html-content-extraction

0
推荐指数
1
解决办法
134
查看次数

如何从网页中提取数据(用户名)

我想从会员列表页面收集用户名,如下所示:http: //www.marksdailyapple.com/forum/memberslist/

我想从所有页面获取每个用户名,

我想用bash在linux中做这个

我应该从哪里开始,有人可以给我一些提示吗?

linux bash html-content-extraction

0
推荐指数
1
解决办法
1607
查看次数

php:解析html:从body中提取脚本标签并在</ body>之前注入?

我不关心库是什么,但我需要一种方法从页面的<.body.>中提取<.script.>元素(作为字符串).然后我想在<./ body.>之前插入提取的<.script.>.

理想情况下,我想将<.script.> s提取为2种类型;
1)外部(具有src属性的那些)2)嵌入式(代码在<.script.> <./ script.>之间)

到目前为止,我已经尝试过phpDOM,Simple HTML DOM和Ganon.
我对它们中的任何一个都没有运气(我可以找到链接并删除/打印它们 - 但每次都失败了脚本!).

替代
/sf/ask/1639042121/
(很抱歉重新发布,但已经过了24小时的尝试和失败,使用替代库,失败更多等).


基于来自@ alreadycoded.com的可爱的RegEx答案,我设法将以下内容整合在一起;

$output = "<html><head></head><body><!-- Your stuff --></body></html>"
$content = '';
$js = '';

// 1) Grab <body>
preg_match_all('#(<body[^>]*>.*?<\/body>)#ims', $output, $body);
$content = implode('',$body[0]);

// 2) Find <script>s in <body>
preg_match_all('#<script(.*?)<\/script>#is', $content, $matches);
foreach ($matches[0] as $value) {
    $js .= '<!-- Moved from [body] --> '.$value;
}

// 3) Remove <script>s from <body>
$content2 = preg_replace('#<script(.*?)<\/script>#is', '<!-- Moved to [/body] -->', $content); …
Run Code Online (Sandbox Code Playgroud)

php dom html-content-extraction

0
推荐指数
2
解决办法
8541
查看次数

在php中提取html页面的内容

有任何方法可以提取以php HTML开头<body>和结尾的页面内容</body>.如果有人可以发布一些示例代码.

php html-content-extraction

-2
推荐指数
1
解决办法
4893
查看次数