URL规范化(或URL规范化)是以一致的方式修改和标准化URL的过程.规范化过程的目标是将URL转换为规范化或规范化URL,以便可以确定两个语法上不同的URL是否相同.
策略包括添加尾部斜杠,https => http等.维基百科页面列出了许多.
在Java中有一个最喜欢的方法吗?也许是一个图书馆(Nutch?),但我是开放的.较小和较少的依赖性更好.
我现在会手工编码,并密切关注这个问题.
编辑:如果他们引用相同的内容,我想积极地规范化以统计URL.例如,我忽略了参数utm_source,utm_medium,utm_campaign.例如,如果标题相同,我会忽略子域.