我试图通过Python将.csv文件转换为netCDF4,但我无法弄清楚如何将.csv表格格式的信息存储到netCDF中.我主要担心的是我们如何将列中的变量声明为可行的netCDF4格式?我发现的一切通常都是从netCDF4中提取信息到.csv或ASCII.我提供了样本数据,示例代码和我的错误,用于声明适当的数组.任何帮助将非常感激.
样本表如下:
Station Name Country Code Lat Lon mn.yr temp1 temp2 temp3 hpa
Somewhere US 12340 35.52 23.358 1.19 -8.3 -13.1 -5 69.5
Somewhere US 12340 2.1971 -10.7 -13.9 -7.9 27.9
Somewhere US 12340 3.1971 -8.4 -13 -4.3 90.8
Run Code Online (Sandbox Code Playgroud)
我的示例代码是:
#!/ usr/bin/env python
import scipy
import numpy
import netCDF4
import csv
from numpy import arange, dtype
Run Code Online (Sandbox Code Playgroud)
#Declare空数组
v1 = []
v2 = []
v3 = []
v4 = []
Run Code Online (Sandbox Code Playgroud)
#打开csv文件并为每个标题声明数组的变量
f = open('station_data.csv', 'r').readlines()
for line in f[1:]:
fields = line.split(',')
v1.append(fields[0]) #station
v2.append(fields[1])#country
v3.append(int(fields[2]))#code
v4.append(float(fields[3]))#lat
v5.append(float(fields[3]))#lon
#more variables included but this is just an abridged list
print v1
print v2
print v3
print v4
Run Code Online (Sandbox Code Playgroud)
#convert到netcdf4框架,作为netcdf
ncout = netCDF4.Dataset('station_data.nc','w')
Run Code Online (Sandbox Code Playgroud)
#纬度和经度.包含缺少号码的NaN
lats_out = -25.0 + 5.0*arange(v4,dtype='float32')
lons_out = -125.0 + 5.0*arange(v5,dtype='float32')
Run Code Online (Sandbox Code Playgroud)
#输出数据.
press_out = 900. + arange(v4*v5,dtype='float32') # 1d array
press_out.shape = (v4,v5) # reshape to 2d array
temp_out = 9. + 0.25*arange(v4*v5,dtype='float32') # 1d array
temp_out.shape = (v4,v5) # reshape to 2d array
Run Code Online (Sandbox Code Playgroud)
#创建lat和lon维度.
ncout.createDimension('latitude',v4)
ncout.createDimension('longitude',v5)
Run Code Online (Sandbox Code Playgroud)
#定义坐标变量.他们将保存坐标信息
lats = ncout.createVariable('latitude',dtype('float32').char,('latitude',))
lons = ncout.createVariable('longitude',dtype('float32').char,('longitude',))
Run Code Online (Sandbox Code Playgroud)
#分配单位属性以协调var数据.这会将text属性附加到包含单位的每个坐标变量.
lats.units = 'degrees_north'
lons.units = 'degrees_east'
Run Code Online (Sandbox Code Playgroud)
#将数据写入坐标变量.
lats[:] = lats_out
lons[:] = lons_out
Run Code Online (Sandbox Code Playgroud)
#创建压力和温度变量
press = ncout.createVariable('pressure',dtype('float32').char,('latitude','longitude'))
temp = ncout.createVariable('temperature',dtype('float32').char,'latitude','longitude'))
Run Code Online (Sandbox Code Playgroud)
#设置单位属性.
press.units = 'hPa'
temp.units = 'celsius'
Run Code Online (Sandbox Code Playgroud)
#将数据写入变量.
press[:] = press_out
temp[:] = temp_out
ncout.close()
f.close()
Run Code Online (Sandbox Code Playgroud)
错误:
Traceback (most recent call last):
File "station_data.py", line 33, in <module>
v4.append(float(fields[3]))#lat
ValueError: could not convert string to float:
Run Code Online (Sandbox Code Playgroud)
Ric*_*ell 10
对于xarray来说,这是一个完美的工作,xarray是一个python包,它有一个表示netcdf公共数据模型的数据集对象.以下是您可以尝试的示例:
import pandas as pd
import xarray as xr
url = 'http://www.cpc.ncep.noaa.gov/products/precip/CWlink/'
ao_file = url + 'daily_ao_index/monthly.ao.index.b50.current.ascii'
nao_file = url + 'pna/norm.nao.monthly.b5001.current.ascii'
kw = dict(sep='\s*', parse_dates={'dates': [0, 1]},
header=None, index_col=0, squeeze=True, engine='python')
# read into Pandas Series
s1 = pd.read_csv(ao_file, **kw)
s2 = pd.read_csv(nao_file, **kw)
s1.name='AO'
s2.name='NAO'
# concatenate two Pandas Series into a Pandas DataFrame
df=pd.concat([s1, s2], axis=1)
# create xarray Dataset from Pandas DataFrame
xds = xr.Dataset.from_dataframe(df)
# add variable attribute metadata
xds['AO'].attrs={'units':'1', 'long_name':'Arctic Oscillation'}
xds['NAO'].attrs={'units':'1', 'long_name':'North Atlantic Oscillation'}
# add global attribute metadata
xds.attrs={'Conventions':'CF-1.0', 'title':'AO and NAO', 'summary':'Arctic and North Atlantic Oscillation Indices'}
# save to netCDF
xds.to_netcdf('/usgs/data2/notebook/data/ao_and_nao.nc')
Run Code Online (Sandbox Code Playgroud)
然后运行ncdump -h ao_and_nao.nc产生:
netcdf ao_and_nao {
dimensions:
dates = 782 ;
variables:
double dates(dates) ;
dates:units = "days since 1950-01-06 00:00:00" ;
dates:calendar = "proleptic_gregorian" ;
double NAO(dates) ;
NAO:units = "1" ;
NAO:long_name = "North Atlantic Oscillation" ;
double AO(dates) ;
AO:units = "1" ;
AO:long_name = "Arctic Oscillation" ;
// global attributes:
:title = "AO and NAO" ;
:summary = "Arctic and North Atlantic Oscillation Indices" ;
:Conventions = "CF-1.0" ;
Run Code Online (Sandbox Code Playgroud)
请注意,您可以xarray使用安装pip,但如果您使用的是Anaconda Python Distribution,则可以使用以下命令从Anaconda.org/conda-forge频道安装它:
conda install -c conda-forge xarray
Run Code Online (Sandbox Code Playgroud)
虽然xarray上面提到的是一个很棒的工具,但英国气象局的图书馆也值得一看iris。Iris 的一个关键优势是有助于创建遵循气候预报(CF 约定)的 netCDF 文件。它通过提供辅助函数来定义标准名称、单位、坐标系和其他元数据约定来实现此目的。它还提供绘图、子集化和分析实用程序。
对于此类地球科学数据,CF 是netCDF 文件的推荐标准
作为其使用示例,此 Python 笔记本重新实现了上面的 AO/NAO 示例。
如果您看到输入文件,则第二行中的纬度列没有对应的值。当您读取 csv 文件时,该值即fields[3]存储为空字符串""。这就是为什么你会得到一个ValueError. 您可以定义一个可以处理此错误的新函数,而不是使用默认函数:
def str_to_float(str):
try:
number = float(str)
except ValueError:
number = 0.0
# you can assign an appropriate value instead of 0.0 which suits your requirement
return number
Run Code Online (Sandbox Code Playgroud)
现在您可以通过以下方式使用此函数代替内置 float 函数:
v4.append(str_to_float(fields[3]))
Run Code Online (Sandbox Code Playgroud)