N01*_*zii 1 java string parsing webpage
我在查找我需要为Java字符串做的一种解析时遇到了麻烦.
所以,这不像是用线条或逗号或其他东西解析那么简单,它有点复杂.
我的程序抓取了一个网页的源代码,我需要解析它以查看视图标记的内容.
解决它之间的问题
<input name="sid" type="hidden" value="
Run Code Online (Sandbox Code Playgroud)
和
" />
Run Code Online (Sandbox Code Playgroud)
所以,如果网页有这个字符串:
<input name="sid" type="hidden" value="stringvaluehere" />
Run Code Online (Sandbox Code Playgroud)
它会输出
stringvaluehere
Run Code Online (Sandbox Code Playgroud)
有人可以帮忙吗?我根本没有发现任何关于这类文件的文档,并且在其他来源询问并没有帮助.
谢谢!
如果你想解析HTML,我建议使用HTML解析器而不是使用String操作.将文档解析为字符串只是在遇到您不期望的奇怪输入时询问问题.
这个问题讨论了一些优秀的Java HTML Parsers:Java HTML Parsing
你可以使用一个库,比如JSoup.它通常比尝试手动解析DOM容易得多.
Document doc = Jsoup.connect("http://www.example.com").get();
Elements inputs = doc.select("input#sid");
for(Element input : inputs) {
System.out.println(input.attr("value"));
}
Run Code Online (Sandbox Code Playgroud)
使用简单,重要的是易于阅读.