我在这个线程中读到:
pandas DataFrame.join 的运行时间是多少(大“O”顺序)?
内连接预计为 O(n),而左连接和右连接预计为 O(n log n)。我一直在使用随机数据帧进行一些测试,例如:
df1 = pd.DataFrame({
'user_id': range(1, size + 1), # Unique user_id for df1
'numeric_1': np.random.rand(size),
'numeric_2': np.random.rand(size),
'numeric_3': np.random.rand(size),
'string_1': np.random.choice(['A', 'B', 'C', 'D'], size),
'string_2': np.random.choice(['E', 'F', 'G', 'H'], size),
'string_3': np.random.choice(['I', 'J', 'K', 'L'], size),
})
df2 = pd.DataFrame({
'user_id': range(size + 1, 2 * size + 1), # Ensuring unique user_id for df2
'numeric_4': np.random.rand(size),
'numeric_5': np.random.rand(size),
'numeric_6': np.random.rand(size),
'string_4': np.random.choice(['M', 'N', 'O', 'P'], size),
'string_5': np.random.choice(['Q', 'R', …Run Code Online (Sandbox Code Playgroud)