Mar*_*tin 14 algorithm classification machine-learning neural-network
几个星期前我问了一个类似于这个的问题,但我没有正确地提出这个问题.所以我在这里重新询问更多细节的问题,我希望得到一个更加面向AI的答案.
我有一个代表大致相同的产品的清单.例如,在下面的列表中,它们都是希捷硬盘.
对于人类而言,硬盘驱动器3和5是相同的.我们可以更进一步,并假设产品1,3,4和5是相同的,并将产品2和6放在其他类别中.
在我之前的问题中,有人建议我使用特征提取.当我们有一个预定义描述的小数据集(所有硬盘驱动器)时,它工作得非常好,但是所有其他类型的描述呢?我不想开始为我的应用程序可能面临的所有描述编写基于正则表达式的特征提取器,它不能扩展.是否有任何机器学习算法可以帮助我实现这一目标?我可以获得的描述范围很广,在第1行,它可能是冰箱,然后在下一行,硬盘驱动器.我应该尝试采用神经网络路径吗?我的投入应该是什么?
感谢您的帮助!
我会看一些贝叶斯分类方法.它将涉及训练分类器以识别特定单词,以指示产品属于您的某个类的概率.例如,经过培训后,它可以认识到,如果产品描述中有"Seagate",那么它有99%的可能性是硬盘,而如果它有"Mazda"则有97%的可能性它是一辆汽车.像"new"这样的词可能最终不会对任何分类做出太多贡献,这就是你希望它运作的方式.
这样做的缺点是它通常需要相当大的训练数据集才能开始正常运行,但是你可以设置它以便在生产过程中继续修改它的百分比(如果你注意到它被错误地分类了) ),它最终将变得非常有效.
贝叶斯技术最近在垃圾邮件过滤应用程序中使用得非常频繁,因此最好对它在那里使用的方式进行一些阅读.