从Java中的网页中提取HTML

Bri*_*ian 0 html python java webpage pull

我想从Java(或Python或PHP的网站)中提取整个HTML源代码文件,如果这些语言更容易显示.我希望只查看HTML并使用几种方法扫描它 - 不以任何方式编辑或操作它,我真的希望我不将它写入新文件,除非没有其他方法.是否有任何库类或方法可以执行此操作?如果没有,有什么方法可以解决这个问题吗?

not*_*oop 5

在Java中:

URL url = new URL("http://stackoverflow.com");
URLConnection connection = new URLConnection(url);
InputStream stream = url.openConnection();
// ... read stream like any file stream
Run Code Online (Sandbox Code Playgroud)

此代码适用于脚本编写和内部使用.我不反对将其用于生产用途.它不处理超时和连接失败.

我建议使用HttpClient库进行生产.它支持身份验证,重定向处理,线程,池等.