什么是最好的开源Web爬虫工具,用Java编写.
java web-crawler
是否有一个库(用于java)比较网页之间的相似性(HTML,dom相似度)?
在我的应用程序中,我想分类网站的链接.例如:( group 1: Product detail page group 2: Category page用于在线购物网站等).
group 1: Product detail page group 2: Category page
对于这样的分类html结构(dom)相似性是我认为最好的方式.请帮忙解决这个问题.
html java dom similarity
java ×2
dom ×1
html ×1
similarity ×1
web-crawler ×1