我正在尝试根据我已有的一堆 CSV 数据设计一个关系数据库。它主要用于组织和查询子集的目的,我不会通过事务添加任何新记录。我的数据描述了大约 60 个企业的属性,并且是纵向的,因为它们每年(25 年)接受调查。
我的问题是,在企业的整个生命周期中,某些属性会看到许多重复项,而其他属性会看到很少。这是一个愚蠢的例子:
id, year, company_name, type, num_employees, total_sales,
056, 2000, papa johns, fast food, 11, 45000
056, 2001, papa johns, fast food, 11, 45557
056, 2002, papa johns, fast food, 14, 50000
056, 2003, papa johns, pizza, 17, 55000
056, 2004, papa johns, pizza, 17, 55456
063, 1998, pops barbershop, barber shops, 3, 15000
063, 1999, fresh cutz, barber shops, 3, 15023
063, 2000, fresh cutz, barber shops, 3, 15000
Run Code Online (Sandbox Code Playgroud)
我正在查看大约 6000 万个唯一 ID,其中大多数也有很多年。如果数据库采用与此类似的形式,它将非常庞大且充满重复项。
关于组织方式的任何建议?