Abh*_*jit 11 python numpy r data-analysis
我在数据清理中处理最多的事情之一是缺少值.R使用其"NA"缺失数据标签处理此井.在python中,似乎我将不得不处理掩盖的数组,这些数组似乎是一个很大的痛苦,并且似乎没有很好的记录.有关在Python中简化此过程的任何建议吗?这成为了进入Python进行数据分析的一个突破.谢谢
更新显然已经有一段时间了,因为我已经查看了numpy.ma模块中的方法.似乎至少基本分析函数可用于掩码数组,并且提供的示例帮助我了解如何创建掩码数组(感谢作者).我想看看Python中的一些较新的统计方法(在今年的GSoC中开发)是否包含了这方面,至少是完整的案例分析.
我还质疑屏蔽数组的问题。这里有几个例子:
import numpy as np
data = np.ma.masked_array(np.arange(10))
data[5] = np.ma.masked # Mask a specific value
data[data>6] = np.ma.masked # Mask any value greater than 6
# Same thing done at initialization time
init_data = np.arange(10)
data = np.ma.masked_array(init_data, mask=(init_data > 6))
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
8263 次 |
最近记录: |