我正在编写一个小的Python脚本来清理HTML文档.其工作原理是接受的标签列表保持,然后通过HTML代码解析捣毁不在我使用正则表达式做了列表的标签,我已经能够匹配打开标签和自闭的标签但不是关闭标签.
我一直在尝试匹配结束标签的模式是</(?!a)>.这对我来说似乎合乎逻辑,为什么不工作呢?本(?!a)应匹配任何不是一个锚定标记(不是"一"是可以anything--这只是一个例子).
编辑:AGG!我想正则表达式没有显示!
我需要一个允许除HTML标签之外的任何东西的正则表达式.这里的诀窍是,<和>字符将被允许的,但只是不能与他们之间的文本(但是其他字符是罚款).
以下将被允许:
hello world
!@$%^&*()_+'":;[]{}()\|#
<<<<<<<
>>>>>
<>
><
<087>
<-->
Run Code Online (Sandbox Code Playgroud)
以下将不会被允许
<html>
<a>
<foo>
<bar>
Run Code Online (Sandbox Code Playgroud)
我试过几个没有运气的表情.事实证明这比起初看起来要难得多(无论如何对我来说:P)
编辑:基本上,任何事情都是允许的,除了:A-Z和a-z之间<和>角色.
我怀疑哪一个处理速度更快?
使用curl函数的dom文件或preg_match_all在html页面解析中更快?将dom文件功能留在其他服务器上如curl函数吗?例如,在curl函数中,我们使用用户代理来定义谁正在访问,但在dom文档中没有任何内容.
我是phpQuery的新手.我需要完成获取网页HTML TITLE标记内容的简单任务.在这种情况下,我试图获得"雅虎"的标题内容 应该是"雅虎".
我正在用phpQuery做这个,但它现在正在工作
// Testing phpQuery
$result = phpQuery::newDocumentFile($scraps['Scrap_yahoo']->getPage('http://www.yahoo.com','','off'))
->find('title');
echo $result->text();
Run Code Online (Sandbox Code Playgroud)
有人能给我一个如何实现这一目标的线索吗?
最好的祝福,
我想解析HTML文本并找到特殊部分.例如,在第3文本div1日row和2日column的table.我有两个解析选项:正则表达式和XPath.每个人的优点和缺点是什么?
谢谢
我试图从字符串中删除所有的HTML除外
<span class="match">...text...</span>
假设一个字符串是 "<p>Hello there</p><span class="match">wassup</span>"
我只需要 "Hello there<span class="match">wassup</span>"
有人可以帮忙吗?我在红宝石(铁轨)做它
我想从html页面中提取所有锚标签.我在Linux中使用它.
lynx --source http://www.imdb.com | egrep "<a[^>]*>"
Run Code Online (Sandbox Code Playgroud)
但是这没有按预期工作,因为结果包含不需要的结果
<a class="amazon-affiliate-site-name" href="http://www.fabric.com">Fabric</a><br>
Run Code Online (Sandbox Code Playgroud)
我想要的
<a href >...</a>
Run Code Online (Sandbox Code Playgroud)
有什么好办法吗?
如果我有这样的HTML:
<b>1<i>2</i>3</b>
Run Code Online (Sandbox Code Playgroud)
以下正则表达式:
\<[^\>\/]+\>(.*?)\<\/[^\>]+\>
Run Code Online (Sandbox Code Playgroud)
然后它将匹配:
<b>1<i>2</i>
Run Code Online (Sandbox Code Playgroud)
我希望它只匹配开始和结束标记相同的HTML.有没有办法做到这一点?
谢谢,
乔
我有一个字符串
<a href="/p/123411/"><img src="/p_img/411/123411/639469aa9f_123411_100.jpg" alt="ABCDXYZ" />
Run Code Online (Sandbox Code Playgroud)
什么是在Python中找到ABCDXYZ的正则表达式
我是正则表达式的新手.我想从网页源中获取一些数据.我曾经
file_get_contents("url")获得该页面的HTML源代码.现在我想在一些特殊标签中捕获一部分.
我preg_match_all()为此找到了作品.现在我想要一些帮助来解决我的问题,如果可能的话,帮助我找出如何解决这样的类似问题.
在下面的示例中,我如何获取数据<ul>?(我希望这个示例HTML代码可以让我更容易理解.)
<div class="a_a">qqqqq<span>www</span> </div>
<ul>
<li>
<div class="a_a"><h3>aaaa</h3> aaaa aaaaa</div>
</li>
<li>
<div class="b_b">bbbbb <span class="s-s">bbbb</span> bbbb</div>
</li>
<li>
<div class="c_c d-d">cccc cccc ccccc</div>
</li>
</ul>
<table>
<tr>
<td>sdsdf</td>
<td>hjhjhj</td>
</tr>
<tr>
<td>yuyuy</td>
<td>ertre</td>
</tr>
</table>
Run Code Online (Sandbox Code Playgroud)