相关疑难解决方法(0)

除了XHTML自包含标记之外,RegEx匹配开放标记

我需要匹配所有这些开始标记:

<p>
<a href="foo">

Run Code Online (Sandbox Code Playgroud)

但不是这些:

<br />
<hr class="foo" />

Run Code Online (Sandbox Code Playgroud)

我想出了这个,并希望确保我做对了.我只抓住了a-z.

<([a-z]+) *[^/]*?>

Run Code Online (Sandbox Code Playgroud)

我相信它说:

找一个小于,然后
然后,查找(并捕获)az一次或多次
然后找到零个或多个空格
找到任何字符零次或多次,贪婪/,然后
找到一个大于

我有这个权利吗？更重要的是,你怎么看？

html regex xhtml

Jef*_*eff

2012 05-27

1323
推荐指数

36
解决办法

270万
查看次数

领先的Java HTML解析器的优缺点是什么？

在搜索SO和Google时,我发现有一些Java HTML解析器一直被各方推荐.不幸的是,很难找到有关各种图书馆优势和劣势的任何信息.我希望有些人花了一些时间来比较这些库,并且可以分享他们学到的东西.

这是我见过的:

如果有一个我错过的主要解析器,我也很想知道它的优点和缺点.

谢谢!

html java parsing

Avi*_*lax

2010 12-12

174
推荐指数

5
解决办法

5万
查看次数

如何在Android中删除或转义html标记

PHP具有strip_tags从字符串中剥离HTML和PHP标记的功能.

Android有办法逃脱HTML吗？

android strip-tags

Kri*_*ris

2015 12-30

77
推荐指数

3
解决办法

5万
查看次数

JSP/Servlet Web应用程序中的XSS预防

如何在JSP/Servlet Web应用程序中防止XSS攻击？

java security xss jsp servlets

new*_*bie

2015 05-23

67
推荐指数

4
解决办法

11万
查看次数

在Java中剥离HTML标记

是否有现有的Java库提供了从String中剥离所有HTML标记的方法？我正在寻找strip_tags与PHP中的函数等效的东西.

我知道我可以使用这个Stackoverflow问题中描述的正则表达式,但是我很好奇是否已经有一个stripTags()方法可以在Apache Commons库中的某个地方浮动,可以使用.

html java

Tod*_*odd

2017 05-23

40
推荐指数

8
解决办法

6万
查看次数

如何将HTML文本转换为纯文本？

朋友我必须从url解析描述,其中解析的内容有很少的html标签,所以如何将其转换为纯文本.

html java

MGS*_*hil

2016 10-20

23
推荐指数

5
解决办法

6万
查看次数

用于HTML到文本转换的开源Java库

您能否推荐一个将HTML转换为纯文本的开源Java库(最好是ASL/BSD/LGPL许可证)- 清理所有标签,转换实体(&等)并正确处理<br>和表.

更多信息

我把HTML作为字符串,没有必要从网上获取它.另外,我正在寻找的是这样的方法:

String convertHtmlToPlainText(String html)

Run Code Online (Sandbox Code Playgroud)

html java

Dav*_*itz

2009 10-05

20
推荐指数

1
解决办法

2万
查看次数

如何在Java中删除HTML标记

是否有可以完全删除HTML标记的正则表达式？顺便说一下,我正在使用Java.

html java regex

fre*_*ara

2009 11-09

14
推荐指数

3
解决办法

4万
查看次数

在Java中将HTML转换为纯文本

我需要将HTML转换为纯文本.我对格式化的唯一要求是在纯文本中保留新行.新行不仅应显示在<br>其他标签的情况下,例如<tr/>,也应显示</p>新行.

用于测试的示例HTML页面是:

请注意,这些只是随机网址.

我已经尝试了在这个StackOverflow问题的答案中提到的各种库(JSoup,Javax.swing,Apache utils)来将HTML转换为纯文本.

使用JSoup的示例:

public class JSoupTest {

 @Test
 public void SimpleParse() {
  try {
   Document doc = Jsoup.connect("http://www.particle.kth.se/~lindsey/JavaCourse/Book/Part1/Java/Chapter09/scannerConsole.html").get();
   System.out.print(doc.text());

  } catch (IOException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
  }
 }
}

Run Code Online (Sandbox Code Playgroud)

HTMLEditorKit示例:

import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback {
 StringBuffer s;

 public Html2Text() {}

 public void parse(Reader in) throws IOException {
   s = new StringBuffer();
   ParserDelegator delegator = new ParserDelegator();
   // the …

Run Code Online (Sandbox Code Playgroud)

java parsing plaintext htmleditorkit jsoup

bra*_*yne

2018 04-16

10
推荐指数

2
解决办法

4万
查看次数