PCM音频不会存储为一系列音高.要想出这一点,您需要快速傅立叶变换或FFT.请参阅https://stackoverflow.com/search?q=pitch+detection,已有10篇关于此的帖子.
想想音频波形.PCM编码只是每秒对波进行一定次数的采样,并且每个采样使用特定的比特数.
图片来自http://en.wikipedia.org/wiki/Pulse-code_modulation
44.1kHz的16位单声道PCM意味着每秒44100次,将存储16位值(2个字节),表示采样时的特定时间的波形.44.1kHz的速度足以存储接近22kHz的频率(参见奈奎斯特频率).
FFT将这些样本从时域转换到频域.也就是说,您可以找到特定时间段内所有频率的等级.你看的频段越多,计算密集程度就越高.