我有大约100个csv文件,每个100,000 x 40 行列.我想对它做一些统计分析,提取一些样本数据,绘制一般趋势,做方差和R平方分析,并绘制一些光谱图.就目前而言,我正在考虑为分析而努力.
我想知道这些大文件应该有什么问题?我已经检查过错误的数据了.您对统计分析的建议是什么?如果我只是拆分文件并在Excel中执行整个操作会更好吗?
S.L*_*ott 13
我发现Python + CSV可能是进行某种统计处理的最快,最简单的方法.
我们做了大量的重新格式化和纠正奇怪的数据错误,因此Python帮助了我们.
Python功能编程功能的可用性使这一点变得特别简单.您可以使用这样的工具进行采样.
def someStatFunction( source ):
for row in source:
...some processing...
def someFilterFunction( source ):
for row in source:
if someFunction( row ):
yield row
# All rows
with open( "someFile", "rb" ) as source:
rdr = csv.reader( source )
someStatFunction( rdr )
# Filtered by someFilterFunction applied to each row
with open( "someFile", "rb" ) as source:
rdr = csv.reader( source )
someStatFunction( someFilterFunction( rdr ) )
Run Code Online (Sandbox Code Playgroud)
我真的希望能够从更简单的函数中编写更复杂的函数.