相关疑难解决方法(0)

正则表达式匹配结束HTML标记

我正在编写一个小的Python脚本来清理HTML文档.其工作原理是接受的标签列表保持,然后通过HTML代码解析捣毁不在我使用正则表达式做了列表的标签,我已经能够匹配打开标签和自闭的标签但不是关闭标签.

我一直在尝试匹配结束标签的模式是</(?!a)>.这对我来说似乎合乎逻辑,为什么不工作呢？本(?!a)应匹配任何不是一个锚定标记(不是"一"是可以anything--这只是一个例子).

编辑:AGG!我想正则表达式没有显示!

html python regex

kev*_*628

2018 12-29

4
推荐指数

2
解决办法

3万
查看次数

正则表达式禁止HTML标签？

我需要一个允许除HTML标签之外的任何东西的正则表达式.这里的诀窍是,<和>字符将被允许的,但只是不能与他们之间的文本(但是其他字符是罚款).

以下将被允许:

hello world
!@$%^&*()_+'":;[]{}()\|#
<<<<<<<
>>>>>
<>
><
<087>
<-->

Run Code Online (Sandbox Code Playgroud)

以下将不会被允许

<html>
<a>
<foo>
<bar>

Run Code Online (Sandbox Code Playgroud)

我试过几个没有运气的表情.事实证明这比起初看起来要难得多(无论如何对我来说:P)

编辑:基本上,任何事情都是允许的,除了:A-Z和a-z之间<和>角色.

html regex

CBa*_*arr

2010 11-04

4
推荐指数

1
解决办法

2490
查看次数

PHP Dom文件html更快还是preg_match_all函数更快？

我怀疑哪一个处理速度更快？

使用curl函数的dom文件或preg_match_all在html页面解析中更快？将dom文件功能留在其他服务器上如curl函数吗？例如,在curl函数中,我们使用用户代理来定义谁正在访问,但在dom文档中没有任何内容.

php dom

mat*_*hew

2013 12-11

4
推荐指数

1
解决办法

2927
查看次数

PhpQuery如何工作？试图获取<title>标签的值

我是phpQuery的新手.我需要完成获取网页HTML TITLE标记内容的简单任务.在这种情况下,我试图获得"雅虎"的标题内容应该是"雅虎".

我正在用phpQuery做这个,但它现在正在工作

// Testing phpQuery
$result = phpQuery::newDocumentFile($scraps['Scrap_yahoo']->getPage('http://www.yahoo.com','','off'))
            ->find('title');
echo $result->text();

Run Code Online (Sandbox Code Playgroud)

有人能给我一个如何实现这一目标的线索吗？

最好的祝福,

php tags title phpquery

And*_*dré

2014 04-15

4
推荐指数

1
解决办法

3379
查看次数

解析HTML文本时正则表达式与XPath

我想解析HTML文本并找到特殊部分.例如,在第3文本div1日row和2日column的table.我有两个解析选项:正则表达式和XPath.每个人的优点和缺点是什么？

谢谢

html regex xpath parsing html-parsing

Afs*_*bbi

lucky-day

4
推荐指数

2
解决办法

3059
查看次数

正则表达式去除除span标记之外的所有html标记

我试图从字符串中删除所有的HTML除外

...text...

假设一个字符串是 "Hello therewassup"

我只需要 "Hello therewassup"

有人可以帮忙吗？我在红宝石(铁轨)做它

ruby regex

Mad*_*han

lucky-day

3
推荐指数

1
解决办法

1894
查看次数

正则表达式从html页面提取数据

我想从html页面中提取所有锚标签.我在Linux中使用它.

lynx --source http://www.imdb.com | egrep "<a[^>]*>"

Run Code Online (Sandbox Code Playgroud)

但是这没有按预期工作,因为结果包含不需要的结果

<a class="amazon-affiliate-site-name" href="http://www.fabric.com">Fabric</a><br>

Run Code Online (Sandbox Code Playgroud)

我想要的

<a href >...</a>

Run Code Online (Sandbox Code Playgroud)

有什么好办法吗？

regex linux bash grep lynx

Unn*_*nni

lucky-day

3
推荐指数

1
解决办法

1940
查看次数

是否可以检查两组是否相等？

如果我有这样的HTML:

 <b>1<i>2</i>3</b>

Run Code Online (Sandbox Code Playgroud)

以下正则表达式:

 \<[^\>\/]+\>(.*?)\<\/[^\>]+\>

Run Code Online (Sandbox Code Playgroud)

然后它将匹配:

 <b>1<i>2</i>

Run Code Online (Sandbox Code Playgroud)

我希望它只匹配开始和结束标记相同的HTML.有没有办法做到这一点？

谢谢,

乔

regex

Joe*_*oeS

lucky-day

3
推荐指数

1
解决办法

2006
查看次数

正则表达式找到一个字符串python

我有一个字符串

<a href="/p/123411/"><img src="/p_img/411/123411/639469aa9f_123411_100.jpg" alt="ABCDXYZ" />

Run Code Online (Sandbox Code Playgroud)

什么是在Python中找到ABCDXYZ的正则表达式

python regex

Joh*_*ohn

lucky-day

2
推荐指数

1
解决办法

1690
查看次数

如何在PHP中使用带有preg_match_all的Regex提取某些HTML标记,例如<ul>？

我是正则表达式的新手.我想从网页源中获取一些数据.我曾经 file_get_contents("url")获得该页面的HTML源代码.现在我想在一些特殊标签中捕获一部分.

我preg_match_all()为此找到了作品.现在我想要一些帮助来解决我的问题,如果可能的话,帮助我找出如何解决这样的类似问题.

在下面的示例中,我如何获取数据<ul>？(我希望这个示例HTML代码可以让我更容易理解.)

<div class="a_a">qqqqq<span>www</span> </div>
<ul>
<li>
    <div class="a_a"><h3>aaaa</h3> aaaa aaaaa</div>
</li>
<li>
    <div class="b_b">bbbbb <span class="s-s">bbbb</span> bbbb</div>
</li>
<li>
    <div class="c_c d-d">cccc cccc ccccc</div>
</li>
</ul>
<table>
<tr>
    <td>sdsdf</td>
    <td>hjhjhj</td>
</tr>
<tr>
    <td>yuyuy</td>
    <td>ertre</td>
</tr>   
</table>

Run Code Online (Sandbox Code Playgroud)

html php regex preg-match-all preg-match

Nir*_*dal

2014 01-08

2
推荐指数

1
解决办法

8032
查看次数