收集,维护和确保庞大数据集准确性的最佳实践是什么?

Kyl*_*est 8 database dataset large-data

我正在提出这个问题,寻找有关如何设计系统的实用建议.

像amazon.com和pandora这样的网站拥有并维护着庞大的数据集来运行他们的核心业务.例如,亚马逊(以及其他所有主要的电子商务网站)都有数以百万计的待售产品,这些产品的图片,价格,规格等等.

忽略来自第三方卖家的数据和用户生成的内容,所有"东西"必须来自某个地方,并由某人维护.它也非常详细和准确.怎么样?他们是如何做到的呢?是否只有一大批数据录入员或他们设计了系统来处理咕噜咕噜的工作?

我的公司情况类似.我们保留了巨大的(数千万条记录)汽车零件目录和他们适合的汽车.我们已经有一段时间了,并且已经提出了许多程序和流程来保持我们的目录不断增长和准确; 但是,似乎要将目录增长到x项目,我们需要将团队扩展到y.

我需要找到一些方法来提高数据团队的效率,希望我可以从其他人的工作中学习.任何建议都表示赞赏,更多的是内容的链接,我可以花一些时间阅读.

ern*_*rn0 5

使用访客.

  1. 即使每个项目只有一个人,也会有错误的记录,客户找到它.因此,让他们将项目标记为"不适合"并做出简短的评论.但不要忘记,他们不是你的员工,也不要过多地问他们; 看到Facebook的"喜欢"按钮,它易于使用,并且不需要用户过多的精力.良好的性能/价格.如果Facebook中有一个强制字段,询问"你为什么喜欢它?",那么没有人应该使用该功能.

  2. 访问者也可以帮助您隐瞒方式:他们访问项目页面,并使用搜索功能(我的意思是内部搜索引擎和外部搜索引擎,如谷歌).您可以从访问者的活动中获取信息,比如设置访问量最大的项目的顺序,然后您应该将更多的人力集中在列表的顶部,而不是"长尾".