如何在Julia中编写和读取包含datetime列的DataFrame

Col*_*ers 6 datetime hdf5 dataframe julia

第二次更新:用户@Matt B确认为错误.请参阅下面的答案以获取更多详细信息.

更新: @waTeim已经证明可以编写和读取包含date类型列的DataFrame (在我的设置中确认).这很重要,因为这意味着Julia可以编写和读取数据框列中的某些复合类型.但是,类型日期时间(与类型日期不同)的情况仍然会引发错误,因此此时问题仍然没有答案.

在Julia中,使用HDF5和JLD包,可以使用以下方法在.jld文件中保存和加载DataFrame:

#Preamble
using HDF, JLD, DataFrames
filePath = "/home/colin/Test.jld";

#Save the data-frame
fid1 = jldopen(FP, "w");
write(fid1, "MyDataFrame", MyDataFrame);
close(fid1);

#Come back later and load the data-frame
fid1 = jldopen(FP, "r");
X = read(fid1, "MyDataFrame");
close(fid1);
Run Code Online (Sandbox Code Playgroud)

这很好用,只要数据框的列都是基本Julia类型的矢量,如Float64Int64.但是,在实践中,我们通常希望数据框的第一列是a datetime,而不是基本类型(尽管可能在将来的版本中成为一个).在这种情况下,上面的代码对我的read操作失败,有一个很长的错误消息(如果有人在评论中提问,我会把它添加到底部).根据JLD包的文档,我在保存时尝试了以下操作:

#Save the data-frame
fid1 = jldopen(FP, "w");
addrequire(fid1, "/home/colin/.julia/v0.2/DataFrames/src/dataframe.jl")
addrequire(fid1, "/home/colin/.julia/v0.2/Datetime/src/Datetime.jl")
write(fid1, "MyDataFrame", MyDataFrame);
close(fid1);
Run Code Online (Sandbox Code Playgroud)

但这没有帮助.

我做了一些愚蠢的事情,或者这个功能根本不可用?

注意:包含HDF5标签,因为JLD包使用它.

waT*_*eim 6

当缺少HDF5对特定Julia数据类型的支持时,可以预期会出现此错误.在这种情况下,它不是特定的DataFrames使用Datetime,但缺乏对Datetime本身类型的支持.显然,当库因任何原因无法加载类型时(有关其他示例,请参见此处此处).每种类型的确切原因和修复方法都不同,但报告错误会导致及时修复(见下文).

错误

HDF5-DIAG: Error detected in HDF5 (1.8.11) thread 0:
  #000: H5Dio.c line 182 in H5Dread(): can't read data
    major: Dataset
    minor: Read failed
  #001: H5Dio.c line 438 in H5D__read(): unable to set up type info
    major: Dataset
    minor: Unable to initialize object
  #002: H5Dio.c line 939 in H5D__typeinfo_init(): unable to convert between src and dest datatype
    major: Dataset
    minor: Feature is unsupported
  #003: H5T.c line 4525 in H5T_path_find(): no appropriate function for conversion path
    major: Datatype
    minor: Unable to initialize object
Run Code Online (Sandbox Code Playgroud)

历史的

版本0.2.25

我建议您现在迁移到Julia版本0.3,因为它处于候选版本状态并更新您的软件包存储库.我的设置不同; 我使用的是不同版本的HDF5,JLD,DataFrames和Datetime.但话虽如此,我所做的两个重大改变是在调用addrequire时简单地指出模块名称而不是文件名,并且还使用@read@write宏而不是相应的函数,因为后者似乎是错误的.

Version 0.3.0-rc1+4263 (2014-07-19 02:59 UTC)

Pkg.status()
- DataFrames                    0.5.7
- HDF5                          0.2.25
- Datetime                      0.1.6
Run Code Online (Sandbox Code Playgroud)

创建数据文件

using HDF5,JLD,DataFrames,Datetime

testFile = jldopen("test.jld","w")
addrequire(testFile,"DataFrames")
addrequire(testFile,"Datetime")
df = DataFrame()
df[:column1] = today() 
@write testFile df
close(testFile)
Run Code Online (Sandbox Code Playgroud)

重启朱莉娅并阅读......

julia> using HDF5,JLD,DataFrames,Datetime

julia> testFile = jldopen("test.jld","r")
Julia data file version 0.0.2: test.jld

julia> @read testFile df
1x1 DataFrame
|-------|------------|
| Row # | column1    |
| 1     | 2014-07-19 |

julia> df[:column1]
 1-element DataArray{Date{ISOCalendar},1}:
 2014-07-19
Run Code Online (Sandbox Code Playgroud)

版本0.2.25+(预发布)

事实上,我可以确认尝试存储Datetime失败并使用repo中的最新版本来解决问题.

 HDF5                          0.2.25+            master
Run Code Online (Sandbox Code Playgroud)

如果仅通过将today()更改为now()来修改上述内容

df[:column1] = now()
Run Code Online (Sandbox Code Playgroud)

然后是以下

julia> using HDF5,JLD,DataFrames,Datetime

julia> testFile = jldopen("test.jld","r")
Julia data file version 0.0.2: test.jld

julia> @read testFile df
1x1 DataFrame
|-------|-------------------------|
| Row # | column1                 |
| 1     | 2014-07-26T03:38:45 UTC |
Run Code Online (Sandbox Code Playgroud)

但看起来,尽管有这样的修复,但是对于类型复杂,也会发生与Datetime相同的一般性错误消息.

c = 1 + im;
@write testFile c
Run Code Online (Sandbox Code Playgroud)

版本0.2.26

通过这个版本,也支持复杂.最初似乎问题是缺乏对类型复合体的支持,但它更可能是从1 + im初始化复杂的特殊问题; 而不是1.0 + im.

- HDF5                          0.2.26

julia> using HDF5, JLD

julia> testFile = jldopen("test.jld","r")
Julia data file version 0.0.2: test.jld

julia> @read testFile c
1 + 1im
Run Code Online (Sandbox Code Playgroud)


Mat*_* B. 2

正如我在上面的评论中指出的,这是一个错误,现已修复。在版本 0.2.26 被标记之前,您可以使用Pkg.checkout("HDF5")来修复此错误。

\n\n
\n\n

但为了让这个问题更像一个答案,我将更多地描述这个问题并给出一个潜在的解决方法。Date和类型DateTime都是具有非常相似定义的位类型。在 HDF5.jl 包中保存和加载位类型是一个相对较新的功能;它仅在过去一个月受到支持(标记为版本 0.2.24 和 0.2.25)。

\n\n

这些版本有一个错误,即位类型的类型名称不会与其模块名称一起保存(作为完全限定的类型名称)。import您可以在和之间的区别中非常清楚地看到这一点using

\n\n
julia> using HDF5, JLD # version 0.2.25\n\njulia> import Datetime\n\njulia> save("today.jld","t",Datetime.today()) # today() returns a `Datetime.Date`\n\njulia> load("today.jld") # But it was saved as just a `Date`, not a `Datetime.Date`\n                         # so HDF5 cannot find the definition\nHDF5-DIAG: Error detected in HDF5 (1.8.11) thread 0:\n  #000: H5Dio.c line 182 in H5Dread(): can\'t read data \xe2\x80\xa6 # backtrace truncated\n\njulia> using Datetime # Bring `Date` into the `Main` namespace\n\njulia> load("today.jld") # now it works!\nDict{Union(UTF8String,ASCIIString),Any} with 1 entry:\n  "t" => 2014-07-25\n
Run Code Online (Sandbox Code Playgroud)\n\n

因此,当您保存DateTime对象时,它由 aCalendar timezone参数化Offset。但这些Offset类型不是从 Datetime 包\xe2\x80\xa6 导出的,它们有很多!然而,大多数日期时间仅使用Zone0:UTC。因此,如果您使用 HDF5.jl 版本 0.2.24-25 保存了 DateTime 数据,则可以通过手动将这些类型“导出”到主命名空间来恢复它。

\n\n
julia> save("now.jld","n",now())\n\njulia> load("now.jld")\nHDF5-DIAG: Error detected in HDF5 (1.8.11) thread 0:\n  #000: H5Dio.c line 182 in H5Dread(): can\'t read data \xe2\x80\xa6 # truncated\n\njulia> const Zone0 = Datetime.Zone0;\n\njulia> load("now.jld")\nDict{Union(UTF8String,ASCIIString),Any} with 1 entry:\n  "n" => 2014-07-25T13:45:45 UTC\n
Run Code Online (Sandbox Code Playgroud)\n