如何以编程方式查找网址是电子商务网站还是非电子商务网站？

Question

在一个项目中,有一个模块采用URL并确定它是"电子商务"还是"非电子商务"网站.

我尝试了以下方法:

使用Apache mahout,分类:URL --->采取html转储--->预处理html转储a)删除所有html标签

b)删除停止词(也称为常用词),如CDATA,href,value和,等等.

c)训练模型然后测试它.

在我用于训练的params之后

bin/mahout trainclassifier\-i training-data\-o bayes-model \> -type bayes -ng 1

测试:

/bin/mahout testclassifier \
  -d test-data \
  -m bayes-model \
  -type bayes -source hdfs -ng 1 -method sequential

准确度我得到73%,cbayes算法得到52%.

我想通过提取电子商务网站中的信息来改善预处理阶段,如"结帐按钮","付费朋友链接","价格/美元符号","货到付款","30天保证"等文本.

有关如何提取此信息或任何其他方式将网站预测为电子商务或非电子商务的建议吗？

Answer 1

我很惊讶你只用简单的 html 提取和贝叶斯分类器就能获得如此好的准确率。

但您似乎在结账按钮和价格等功能上走在正确的轨道上。

这是我昨天在阅读有关 Yandex 时发现的一篇论文：

这是关于如何区分这两个站点以及它们使用的一些技术。他们还使用 SVM 代替朴素贝叶斯。