相关疑难解决方法(0)

正则表达式匹配结束HTML标记

我正在编写一个小的Python脚本来清理HTML文档.其工作原理是接受的标签列表保持,然后通过HTML代码解析捣毁不在我使用正则表达式做了列表的标签,我已经能够匹配打开标签和自闭的标签但不是关闭标签.

我一直在尝试匹配结束标签的模式是</(?!a)>.这对我来说似乎合乎逻辑,为什么不工作呢?本(?!a)应匹配任何不是一个锚定标记(不是"一"是可以anything--这只是一个例子).

编辑:AGG!我想正则表达式没有显示!

html python regex

4
推荐指数
2
解决办法
3万
查看次数

正则表达式禁止HTML标签?

我需要一个允许除HTML标签之外的任何东西的正则表达式.这里的诀窍是,<和>字符被允许的,但只是不能与他们之间的文本(但是其他字符是罚款).

以下被允许:

hello world
!@$%^&*()_+'":;[]{}()\|#
<<<<<<<
>>>>>
<>
><
<087>
<-->
Run Code Online (Sandbox Code Playgroud)

以下将不会被允许

<html>
<a>
<foo>
<bar>
Run Code Online (Sandbox Code Playgroud)

我试过几个没有运气的表情.事实证明这比起初看起来要难得多(无论如何对我来说:P)

编辑:基本上,任何事情都是允许的,除了:A-Za-z之间<>角色.

html regex

4
推荐指数
1
解决办法
2490
查看次数

PHP Dom文件html更快还是preg_match_all函数更快?

我怀疑哪一个处理速度更快?

使用curl函数的dom文件或preg_match_all在html页面解析中更快?将dom文件功能留在其他服务器上如curl函数吗?例如,在curl函数中,我们使用用户代理来定义谁正在访问,但在dom文档中没有任何内容.

php dom

4
推荐指数
1
解决办法
2927
查看次数

PhpQuery如何工作?试图获取<title>标签的值

我是phpQuery的新手.我需要完成获取网页HTML TITLE标记内容的简单任务.在这种情况下,我试图获得"雅虎"的标题内容 应该是"雅虎".

我正在用phpQuery做这个,但它现在正在工作

// Testing phpQuery
$result = phpQuery::newDocumentFile($scraps['Scrap_yahoo']->getPage('http://www.yahoo.com','','off'))
            ->find('title');
echo $result->text();
Run Code Online (Sandbox Code Playgroud)

有人能给我一个如何实现这一目标的线索吗?

最好的祝福,

php tags title phpquery

4
推荐指数
1
解决办法
3379
查看次数

解析HTML文本时正则表达式与XPath

我想解析HTML文本并找到特殊部分.例如,在第3文本div1日row和2日columntable.我有两个解析选项:正则表达式和XPath.每个人的优点和缺点是什么?

谢谢

html regex xpath parsing html-parsing

4
推荐指数
2
解决办法
3059
查看次数

正则表达式去除除span标记之外的所有html标记

我试图从字符串中删除所有的HTML除外

<span class="match">...text...</span>

假设一个字符串是 "<p>Hello there</p><span class="match">wassup</span>"

我只需要 "Hello there<span class="match">wassup</span>"

有人可以帮忙吗?我在红宝石(铁轨)做它

ruby regex

3
推荐指数
1
解决办法
1894
查看次数

正则表达式从html页面提取数据

我想从html页面中提取所有锚标签.我在Linux中使用它.

lynx --source http://www.imdb.com | egrep "<a[^>]*>"
Run Code Online (Sandbox Code Playgroud)

但是这没有按预期工作,因为结果包含不需要的结果

<a class="amazon-affiliate-site-name" href="http://www.fabric.com">Fabric</a><br>
Run Code Online (Sandbox Code Playgroud)

我想要的

<a href >...</a>
Run Code Online (Sandbox Code Playgroud)

有什么好办法吗?

regex linux bash grep lynx

3
推荐指数
1
解决办法
1940
查看次数

是否可以检查两组是否相等?

如果我有这样的HTML:

 <b>1<i>2</i>3</b>
Run Code Online (Sandbox Code Playgroud)

以下正则表达式:

 \<[^\>\/]+\>(.*?)\<\/[^\>]+\>
Run Code Online (Sandbox Code Playgroud)

然后它将匹配:

 <b>1<i>2</i>
Run Code Online (Sandbox Code Playgroud)

我希望它只匹配开始和结束标记相同的HTML.有没有办法做到这一点?

谢谢,

regex

3
推荐指数
1
解决办法
2006
查看次数

正则表达式找到一个字符串python

我有一个字符串

<a href="/p/123411/"><img src="/p_img/411/123411/639469aa9f_123411_100.jpg" alt="ABCDXYZ" />
Run Code Online (Sandbox Code Playgroud)

什么是在Python中找到ABCDXYZ的正则表达式

python regex

2
推荐指数
1
解决办法
1690
查看次数

如何在PHP中使用带有preg_match_all的Regex提取某些HTML标记,例如<ul>?

我是正则表达式的新手.我想从网页源中获取一些数据.我曾经 file_get_contents("url")获得该页面的HTML源代码.现在我想在一些特殊标签中捕获一部分.

preg_match_all()为此找到了作品.现在我想要一些帮助来解决我的问题,如果可能的话,帮助我找出如何解决这样的类似问题.

在下面的示例中,我如何获取数据<ul>?(我希望这个示例HTML代码可以让我更容易理解.)

<div class="a_a">qqqqq<span>www</span> </div>
<ul>
<li>
    <div class="a_a"><h3>aaaa</h3> aaaa aaaaa</div>
</li>
<li>
    <div class="b_b">bbbbb <span class="s-s">bbbb</span> bbbb</div>
</li>
<li>
    <div class="c_c d-d">cccc cccc ccccc</div>
</li>
</ul>
<table>
<tr>
    <td>sdsdf</td>
    <td>hjhjhj</td>
</tr>
<tr>
    <td>yuyuy</td>
    <td>ertre</td>
</tr>   
</table>
Run Code Online (Sandbox Code Playgroud)

html php regex preg-match-all preg-match

2
推荐指数
1
解决办法
8032
查看次数

标签 统计

regex ×8

html ×4

php ×3

python ×2

bash ×1

dom ×1

grep ×1

html-parsing ×1

linux ×1

lynx ×1

parsing ×1

phpquery ×1

preg-match ×1

preg-match-all ×1

ruby ×1

tags ×1

title ×1

xpath ×1