小编gee*_*eek的帖子

如何以编程方式查找网址是电子商务网站还是非电子商务网站?

在一个项目中,有一个模块采用URL并确定它是"电子商务"还是"非电子商务"网站.

我尝试了以下方法:

  1. 使用Apache mahout,分类:URL --->采取html转储--->预处理html转储a)删除所有html标签

    b)删除停止词(也称为常用词),如CDATA,href,value和,等等.

    c)训练模型然后测试它.

在我用于训练的params之后

bin/mahout trainclassifier\-i training-data\-o bayes-model \> -type bayes -ng 1

测试:

/bin/mahout testclassifier \
  -d test-data \
  -m bayes-model \
  -type bayes -source hdfs -ng 1 -method sequential
Run Code Online (Sandbox Code Playgroud)

准确度我得到73%,cbayes算法得到52%.

我想通过提取电子商务网站中的信息来改善预处理阶段,如"结帐按钮","付费朋友链接","价格/美元符号","货到付款","30天保证"等文本.

有关如何提取此信息或任何其他方式将网站预测为电子商务或非电子商务的建议吗?

java classification machine-learning mahout

6
推荐指数
1
解决办法
418
查看次数

标签 统计

classification ×1

java ×1

machine-learning ×1

mahout ×1