相关疑难解决方法(0)

Java HTML解析

我正在开发一个从网站上删除数据的应用程序,我想知道如何获取数据.具体来说,我需要包含在许多使用特定CSS类的div标签中的数据 - 目前(用于测试目的)我只是在检查

div class = "classname"
Run Code Online (Sandbox Code Playgroud)

在HTML的每一行 - 这是有效的,但我不禁觉得那里有更好的解决方案.

有没有什么好方法我可以给一个类一行HTML并有一些很好的方法,如:

boolean usesClass(String CSSClassname);
String getText();
String getLink();
Run Code Online (Sandbox Code Playgroud)

html java parsing web-scraping

52
推荐指数
7
解决办法
11万
查看次数

网页抓取,屏幕抓取,数据挖掘技巧?

我正在开发一个项目,我需要做很多屏幕抓取才能尽快获得大量数据.我想知道是否有人知道任何好的API或资源来帮助我.

顺便说一句,我正在使用java.

这是我的工作流程到目前为止:

  1. 连接到网站(使用Apache的HTTPComponents)
  2. 网站包含一个部分,其中包含一些我需要访问的链接(使用内置的java HTML解析器来确定我需要访问的所有链接是什么,这是烦人且杂乱的代码)
  3. 访问我找到的所有链接
  4. 对于我访问的每个链接,我需要提取更多数据,分布在多个页面上,因此我可能需要访问更多链接

思考:

  • 有没有人知道任何更高级别/更智能的HTML解析器比内置的java解析器?
  • 基本上它是深度优先搜索.我想我想在某个时候做这个多线程,所以我可以并行访问其中的一些链接.
  • 也许我真正想要的是一个多线程网络爬行库

如果你还没弄明白,这是我第一次搞乱这个问题,所以我很难说清楚我的需求是什么.我非常感谢你们之前做过这些事的人的任何意见.

java screen-scraping data-mining html-parsing web-scraping

5
推荐指数
1
解决办法
2万
查看次数