我是机器学习的新手,我在python中完成了一些项目.我正在寻找有关如何解决以下问题的建议,我认为这可以实现自动化.
我组织中的数据质量团队中的用户每天都要获取已手动输入的公司名称(带地址)列表,然后他必须使用他的判断搜索公司数据库以查找匹配结果 - 即没有硬性规定.
输入的一个例子是:
公司名称,地址第1行,国家
其中,用户获取公司名称并将其输入搜索工具.在他被提供结果列表并且他选择最佳比赛但可能选择不选择任何比赛.搜索工具内置并与外部API通信,我可以访问源代码,因此我可以修改搜索工具来捕获输入,结果列表,我可以添加一个复选框以查看使用了哪个结果和一个复选框表示没有选择.因此,这将成为我标记的训练数据.
从结果中使用的列来做出判断大致相同:
公司名称,地址第1行,国家
鉴于像Stack Overflow这样的公司名称,结果可能会返回Stack Overflow Ltd.,Stacking Overflowing Shelves Ltd.等.输入数据相当不错,因此结果通常会产生大约10个匹配,对于人类来说,相当明显的是哪一个选择.
我的想法是,通过足够的训练数据,我可以直接使用搜索词调用API,然后从结果列表中选择适当的结果.
这是通过ML可以实现的吗?我正在努力解决每次数据都不同的事实.关于实现这一目标的最佳方法的想法是受欢迎的,特别是如何为模型构建数据以及使用何种分类器等.
machine-learning fuzzy-comparison text-classification record-linkage