我正在开发一个下载HTML页面的程序,然后选择一些信息并将其写入另一个文件.
我想提取段落标记之间的信息,但我只能获得段落的一行.我的代码如下;
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
Run Code Online (Sandbox Code Playgroud)
我试图添加另一个while循环,这将告诉程序继续写入文件,直到该行包含</p>标记,通过说;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
Run Code Online (Sandbox Code Playgroud)
但这不起作用.请有人帮忙.
html java screen-scraping text-extraction html-content-extraction
下载URL列表并仅提取文本内容的好工具或工具集是什么?不需要Spidering,但控制下载文件名称和线程将是一个奖励.
该平台是linux.