Python:分析CSV文件100,000行x 40列

das*_*uki 12 python numpy

我有大约100个csv文件,每个100,000 x 40 行列.我想对它做一些统计分析,提取一些样本数据,绘制一般趋势,做方差和R平方分析,并绘制一些光谱图.就目前而言,我正在考虑为分析而努力.

我想知道这些大文件应该有什么问题?我已经检查过错误的数据了.您对统计分析的建议是什么?如果我只是拆分文件并在Excel中执行整个操作会更好吗?

S.L*_*ott 13

我发现Python + CSV可能是进行某种统计处理的最快,最简单的方法.

我们做了大量的重新格式化和纠正奇怪的数据错误,因此Python帮助了我们.

Python功能编程功能的可用性使这一点变得特别简单.您可以使用这样的工具进行采样.

def someStatFunction( source ):
    for row in source:
        ...some processing...

def someFilterFunction( source ):
    for row in source:
        if someFunction( row ):
            yield row

# All rows
with open( "someFile", "rb" )  as source:
    rdr = csv.reader( source )
    someStatFunction( rdr )

# Filtered by someFilterFunction applied to each row
with open( "someFile", "rb" )  as source:
    rdr = csv.reader( source )
    someStatFunction( someFilterFunction( rdr ) )
Run Code Online (Sandbox Code Playgroud)

我真的希望能够从更简单的函数中编写更复杂的函数.