在Java中解析开始和结束的字符串

N01*_*zii 1 java string parsing webpage

我在查找我需要为Java字符串做的一种解析时遇到了麻烦.

所以,这不像是用线条或逗号或其他东西解析那么简单,它有点复杂.

我的程序抓取了一个网页的源代码,我需要解析它以查看视图标记的内容.

解决它之间的问题

<input name="sid" type="hidden" value="
Run Code Online (Sandbox Code Playgroud)

" />
Run Code Online (Sandbox Code Playgroud)

所以,如果网页有这个字符串:

<input name="sid" type="hidden" value="stringvaluehere" />
Run Code Online (Sandbox Code Playgroud)

它会输出

stringvaluehere
Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗?我根本没有发现任何关于这类文件的文档,并且在其他来源询问并没有帮助.

谢谢!

Jon*_*on7 5

如果你想解析HTML,我建议使用HTML解析器而不是使用String操作.将文档解析为字符串只是在遇到您不期望的奇怪输入时询问问题.

这个问题讨论了一些优秀的Java HTML Parsers:Java HTML Parsing


ano*_*ave 5

你可以使用一个库,比如JSoup.它通常比尝试手动解析DOM容易得多.

Document doc = Jsoup.connect("http://www.example.com").get();
Elements inputs = doc.select("input#sid");
for(Element input : inputs) {
    System.out.println(input.attr("value"));
}
Run Code Online (Sandbox Code Playgroud)

使用简单,重要的是易于阅读.