相关疑难解决方法(0)

从HTML Java中提取文本

我正在开发一个下载HTML页面的程序,然后选择一些信息并将其写入另一个文件.

我想提取段落标记之间的信息,但我只能获得段落的一行.我的代码如下;

FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        try {
            out.write(s);
        } catch (IOException e) {
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

我试图添加另一个while循环,这将告诉程序继续写入文件,直到该行包含</p>标记,通过说;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        while(!s.contains("</p>") {
            try {
                out.write(s);
            } catch (IOException e) {
            }
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

但这不起作用.请有人帮忙.

html java screen-scraping text-extraction html-content-extraction

17
推荐指数
3
解决办法
4万
查看次数

HTML下载和文本提取

下载URL列表并仅提取文本内容的好工具或工具集是什么?不需要Spidering,但控制下载文件名称和线程将是一个奖励.

该平台是linux.

html linux text-extraction download

4
推荐指数
1
解决办法
3578
查看次数