假设我有一个 Pandas DataFrame数据,我想根据特定列col将其拆分
def split_by_column(data, column):
chunk_list = [(k,g) for k, g in data.groupby(column)]
return dict(chunk_list)
collection = split_by_column(data, 'col')
Run Code Online (Sandbox Code Playgroud)
这样我以后就可以轻松地访问和应用函数到这个集合。
例如,如果我有一个同时具有数据和集合作为实例变量的对象,我是否在内存中有两个单独的数据副本,或者字典是否包含对数据中适当夹头的引用?