相关疑难解决方法(0)

如何仅从文本中删除<a>标签?

问候所有,我有一个文本,可能包含以下<a></a>标签:

hello this is a link <a href="www.google.com"> www.google.com </a> please visit it.
Run Code Online (Sandbox Code Playgroud)

我想删除这些标记并将它们保持在它们之间:

hello this is a link  www.google.com  please visit it.
Run Code Online (Sandbox Code Playgroud)

, 怎么做 ?

java regex

3
推荐指数
2
解决办法
5405
查看次数

正则表达式删除所有html标签,不包括<br>和<a class='user'> </a>

我对正则表达式相对较新,但我的目标是使用class ='user' 从字符串中删除除<br>s和<a>标记之外的所有html标记.我想用这个正则表达式从contentedittable字段清除不需要的HTML垃圾.

希望你们其中一个正则表达的大师可以帮助...

以下是一个测试示例: http ://gskinner.com/RegExr/?2tpai

我认为我很接近,但是当需要时,a class ='user'的结束标记仍然被选为垃圾.

html javascript regex tags

3
推荐指数
1
解决办法
2972
查看次数

如何在大括号内获取嵌套值

如何使用PHP进入嵌套大括号?

例:

{{ text1 {{text2 text3 {{text4}} text5}} }}
Run Code Online (Sandbox Code Playgroud)

应该输出

1- text1 {{text2 text3 {{text4}} text5}}
2- text2 text3 {{text4}} text5
3- text4
Run Code Online (Sandbox Code Playgroud)

php regex

3
推荐指数
1
解决办法
1328
查看次数

如何为html解析编写正则表达式?

我正在尝试为我的html解析器编写正则表达式.

我想匹配给定的属性(如一个html标记<div>class="tab news selected"),它包含一个或多个<a href>标签.正则表达式应该与整个标签(从<div></div>).我似乎总是得到"内存耗尽"错误 - 我的程序可能会将它可以找到的每个标记作为匹配的标记.

我正在使用boost regex库.

html c++ regex boost html-content-extraction

2
推荐指数
1
解决办法
4710
查看次数

正则表达式找到一个字符串python

我有一个字符串

<a href="/p/123411/"><img src="/p_img/411/123411/639469aa9f_123411_100.jpg" alt="ABCDXYZ" />
Run Code Online (Sandbox Code Playgroud)

什么是在Python中找到ABCDXYZ的正则表达式

python regex

2
推荐指数
1
解决办法
1690
查看次数

解析html代码或使用java的正则表达式?

我正在尝试提取这段HTML代码的值:

<ul id="tree-dotlrn_class_instance">
<li>
      <a href="/dotlrn/classes/c033/13000/c12c033a13000gA/">**2011-12 Ampl.Arquit.Computadors Gr.A  (13000)**</a>
<ul>
    <li>
        <a href="/dotlrn/classes/c033/13022/c12c033a13022gA/c12c033a13022gAsT00/">**2011-12 Entorns d'Usuari Gr.A  Sgr.T00 (13022)** </a>
    </li>
    <li>
      <a href="/dotlrn/classes/c033/13036/c12c033a13036gA/c12c033a13036gAsT00/">**2011-12 Eng.Serv.Telemàtics Gr.A  Sgr.T00 (13036)** </a>
    </li>
</ul>
</li>

<li>
      <a href="/dotlrn/classes/c033/13038/c12c033a13038gA/">**2011-12 Intel·lig.Artif.Enginyer.Coneixem. Gr.A  (13038)**</a>
</li>

<li>
      <a href="/dotlrn/classes/c033/13048/c12c033a13048gA/">**2011-12 Processad.Llenguatge Gr.A  (13048)**</a>
<ul>
    <li>
        <a href="/dotlrn/classes/c033/13048/c12c033a13048gA/c12c033a13048gAsL01/">**2011-12 Processad.Llenguatge Gr.A  Sgr.L01 (13048)** </a>
    </li>
    <li>
      <a href="/dotlrn/classes/c033/13048/c12c033a13048gA/c12c033a13048gAsT00/">**2011-12 Processad.Llenguatge Gr.A  Sgr.T00 (13048)** </a>
    </li>
    <li>
      <a href="/dotlrn/classes/c033/13052/c12c033a13052gA/c12c033a13052gAsL02/">**2011-12 Sist.Basats Microprocessadors Gr.A  Sgr.L02 (13052)** </a>
    </li>
</ul>
</li>

<li>
      <a href="/dotlrn/classes/c033/13055/c12c033a13055gAA/">**2011-12 Sist.Informàtics Gr.AA …
Run Code Online (Sandbox Code Playgroud)

html java regex parsing

2
推荐指数
1
解决办法
1170
查看次数

如何将python函数定义(以及其他任何内容)与RegEx相匹配?

我试图在Python中使用RegEx来解析函数定义而忽略其他.我一直遇到问题.RegEx是否适合在这里使用?

def foo():
  print bar
-- Matches --

a = 2
def foo():
  print bar
-- Doesn't match as there's code above the def --

def foo():
  print bar
a = 2
-- Doesn't match as there's code below the def --
Run Code Online (Sandbox Code Playgroud)

我正在尝试解析的字符串示例是"def isPalindrome(x):\n return x == x[::-1]".但实际上可能包含def本身之上或之下的行.

我必须使用什么RegEx表达式才能实现这一目标?

python regex

2
推荐指数
1
解决办法
597
查看次数

如何在JavaScript中解析这段innerHTML?

我这样做了:

var blah = document.getElementById('id').getElementsByClassName('class')[0].innerHTML;
Run Code Online (Sandbox Code Playgroud)

现在我在吧:

<a class="title" href="http://www.example.com/" tabindex="1">Some text goes here</a> <span class="domain">(<a href="/domain/foobar.co.uk/">foobar.co.uk</a>)</span>
Run Code Online (Sandbox Code Playgroud)

我想使用JS(没有jQuery)从HTML中读取字符串"Some text goes here".我无法访问该网站的HTML.我正在解析一个网页,为浏览器扩展注入JS.

我是否只需要将其解析为字符串并从>和<之间找到我的文本,或者有没有办法解析JS中的innerHTML?

html javascript innerhtml

2
推荐指数
1
解决办法
3012
查看次数

preg_replace add target ="_ blank",但排除某些实例

我无法将正确的RegEx模式组合到我的链接中添加target ="_ blank".要将其添加到所有链接..没问题,但我需要根据模式排除某些实例.

这是preg_replace()我用来更新目标的所有链接,在href中显示http://

preg_replace('/(<a href="http:[^"]+")>/is','\\1 target="_blank">',$content);
Run Code Online (Sandbox Code Playgroud)

这是我想要获得的场景

link1 /somepage.htm (no target="_blank") Above works
link2 http://www.somesiteexternal.com/ (add target="_blank") Above works
link3 http://www.example.com/somepage.htm (no target="_blank") this is where I'm having a problem.
Run Code Online (Sandbox Code Playgroud)

我想从目标处理中排除http://www.example.comhttp://example.com(这将是代码所在的域),但是如果链接是绝对链接或另一个外部站点那不是使用domain.com然后我想要那个.

试图在此添加排除/异常模式(<a href="http:[^"]+")给我带来麻烦.

谢谢!韩纸

php regex html-parsing

2
推荐指数
1
解决办法
995
查看次数

How does shell select content within the keyword range?

这是一个 HTML 文件,在 HTML 文件中包含大量<section>... </section>内容,其格式如下。

<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>

<section>
<div>
<header><h2>This is a title (RfQVthHm)</h2></header>
More HTML codes...
</div>
</section>

<section>
<div>
<header><h2>This is a title (UaHaZWvm)</h2></header>
More HTML codes...
</div>
</section>

<section>
<div>
<header><h2>This is a title (vxzbXEGq)</h2></header>
More HTML codes...
</div>
</section>

</body>
</html>
Run Code Online (Sandbox Code Playgroud)

我需要提取第二个<section>...</section>内容。

这是预期的输出。

<section>
<div>
<header><h2>This is a title (UaHaZWvm)</h2></header>
More HTML codes...
</div>
</section>
Run Code Online (Sandbox Code Playgroud)

我注意到我可以先查找UaHaZWvm字符(以及前面 2 行),直到遇到下一个</section>.

OP的努力(在评论中提到): grep -o …

shell awk grep sed

2
推荐指数
1
解决办法
136
查看次数