我有一个包含> 1M行数据和20多列的表.
在我的表格(tableX)中,我在一个特定列(troubleColumn)中识别出重复记录(~80k).
如果可能的话,我想保留原始表名并从我有问题的列中删除重复记录,否则我可以创建一个具有相同模式但没有重复项的新表(tableXfinal).
我不擅长SQL或任何其他编程语言,所以请原谅我的无知.
delete from Accidents.CleanedFilledCombined
where Fixed_Accident_Index
in(select Fixed_Accident_Index from Accidents.CleanedFilledCombined
group by Fixed_Accident_Index
having count(Fixed_Accident_Index) >1);
Run Code Online (Sandbox Code Playgroud) 我正在使用bigquery并在文档中说:
与传统的RDBMS不同,没有主要/次要或行ID密钥的概念.如果需要,请为此目的在表架构中标识一列.
你知道我怎么能像pk那样插入没有重复的东西(但不仅仅是在同一个插入中)?问候