Har*_*ord 7 csv perl persistence
我有许多脚本,目前从一些.CSV文件中读取大量数据.为了提高效率,我使用Text :: CSV_XS模块读取它们,然后使用其中一列作为索引创建哈希.但是,我有很多文件,而且它们非常大.每个脚本都需要重新读取数据.
问题是:如何持久存储这些Perl哈希值,以便用最少的CPU读回所有这些哈希值?
组合脚本不是一种选择.我希望...
我应用了第二个优化规则并使用分析来发现绝大多数CPU(大约90%)在:
Text::CSV_XS::fields
Text::CSV_XS::Parse
Text::CSV_XS::parse
Run Code Online (Sandbox Code Playgroud)
因此,我制作了一个测试脚本,读取所有.CSV文件(Text :: CSV_XS),使用Storable模块转储它们,然后返回并使用Storable模块读回它们.我描述了这个,所以我可以看到CPU时间:
$ c:/perl/bin/dprofpp.bat
Total Elapsed Time = 1809.397 Seconds
User+System Time = 950.5560 Seconds
Exclusive Times
%Time ExclSec CumulS #Calls sec/call Csec/c Name
25.6 243.6 243.66 126 1.9338 1.9338 Storable::pretrieve
20.5 194.9 194.92 893448 0.0002 0.0002 Text::CSV_XS::fields
9.49 90.19 90.198 893448 0.0001 0.0001 Text::CSV_XS::Parse
7.48 71.07 71.072 126 0.5641 0.5641 Storable::pstore
4.45 42.32 132.52 893448 0.0000 0.0001 Text::CSV_XS::parse
(the rest was in terms of 0.07% or less and can be ignored)
Run Code Online (Sandbox Code Playgroud)
因此,与Text :: CSV_XS相比,使用大约25.6%的可存储成本重新加载,大约35%.节省不多......
是否有人建议我如何更有效地阅读这些数据?
谢谢你的帮助.
fri*_*edo 11
将一个非常大的哈希放在磁盘上的最简单方法就是使用BerkeleyDB.它速度快,经过时间考验且坚如磐石,CPAN模块提供了一个绑定的API.这意味着您可以继续使用您的哈希,就像它是内存中的数据结构一样,但它会自动通过BerkeleyDB读写磁盘.