相关疑难解决方法(0)

使用熊猫的"大数据"工作流程

在学习大熊猫的过程中,我试图解决这个问题的答案已有好几个月了.我使用SAS进行日常工作,这非常适合它的核心支持.然而,由于其他许多原因,SAS作为一款软件非常糟糕.

有一天,我希望用python和pandas替换我对SAS的使用,但我目前缺乏大型数据集的核心工作流程.我不是在谈论需要分布式网络的"大数据",而是说文件太大而无法容纳在内存中,但又足够小以适应硬盘驱动器.

我的第一个想法是用于HDFStore在磁盘上保存大型数据集,并仅将我需要的部分拉入数据帧进行分析.其他人提到MongoDB是一种更容易使用的替代品.我的问题是:

有哪些最佳实践工作流程可用于完成以下任务:

将平面文件加载到永久的磁盘数据库结构中
查询该数据库以检索数据以提供给pandas数据结构
在操作pandas中的片段后更新数据库

真实世界的例子将非常受欢迎,尤其是那些在"大数据"上使用熊猫的人.

编辑 - 我希望如何工作的示例:

迭代导入大型平面文件并将其存储在永久的磁盘数据库结构中.这些文件通常太大而无法放入内存中.
为了使用Pandas,我想读取这些数据的子集(通常一次只有几列),它们可以适合内存.
我将通过对所选列执行各种操作来创建新列.
然后我必须将这些新列附加到数据库结构中.

我正在尝试找到执行这些步骤的最佳实践方法.阅读关于pandas和pytables的链接似乎附加一个新列可能是个问题.

编辑 - 特别回应杰夫的问题:

我正在构建消费者信用风险模型.数据种类包括电话,SSN和地址特征; 财产价值; 犯罪记录,破产等贬损信息......我每天使用的数据集平均有近1,000到2,000个字段的混合数据类型:数字和字符数据的连续,名义和序数变量.我很少附加行,但我会执行许多创建新列的操作.
典型操作涉及使用条件逻辑将多个列组合到新的复合列中.例如,if var1 > 2 then newvar = 'A' elif var2 = 4 then newvar = 'B'.这些操作的结果是我的数据集中每条记录的新列.
最后,我想将这些新列附加到磁盘上的数据结构中.我将重复第2步,使用交叉表和描述性统计数据探索数据,试图找到有趣,直观的模型关系.
典型的项目文件通常约为1GB.文件被组织成一种行,其中一行包括消费者数据的记录.每行对每条记录都有相同的列数.情况总是如此.
在创建新列时,我很少会按行进行子集化.但是,在创建报告或生成描述性统计信息时,对行进行子集化非常常见.例如,我可能想为特定的业务线创建一个简单的频率,比如零售信用卡.要做到这一点,除了我要报告的列之外,我只会选择那些业务线=零售的记录.但是,在创建新列时,我会提取所有数据行,只提取操作所需的列.
建模过程要求我分析每一列,寻找与某些结果变量的有趣关系,并创建描述这些关系的新化合物列.我探索的列通常以小集合完成.例如,我将专注于一组20个列,只处理属性值并观察它们与贷款违约的关系.一旦探索了这些并创建了新的列,我就转到另一组列,比如大学教育,然后重复这个过程.我正在做的是创建候选变量来解释我的数据和某些结果之间的关系.在这个过程的最后,我应用了一些学习技术,从这些复合列中创建一个方程式.

我很少会在数据集中添加行.我几乎总是会创建新的列(统计/机器学习用语中的变量或特征).

python hdf5 large-data mongodb pandas

Zel*_*ny7

2017 09-23

913
推荐指数

14
解决办法

27万
查看次数

HDF5 - 并发,压缩和I/O性能

我有关于HDF5性能和并发性的以下问题:

HDF5是否支持并发写访问？
除了并发性考虑外,HDF5在I/O性能方面的表现如何(压缩率是否会影响性能)？
由于我在Python中使用HDF5,它的性能与Sqlite相比如何？

参考文献:

python sqlite hdf5 pandas

Ame*_*ina

2017 09-30

64
推荐指数

1
解决办法

3万
查看次数

改善pandas(PyTables？)HDF5表写性能

我已经使用大熊猫进行研究了大约两个月,效果很好.有了大量的中型跟踪事件数据集,pandas + PyTables(HDF5接口)在允许我使用我所熟悉和喜爱的所有Python工具处理异构数据方面做了大量工作.

一般来说,我在PyTables中使用Fixed(以前称为"Storer")格式,因为我的工作流程是一次写入,多次读取,并且我的许多数据集的大小都是这样的,我可以将50-100个数据集加载到内存中.时间没有严重的缺点.(注意:我的大部分工作都是在具有128GB +系统内存的Opteron服务器级机器上完成的.)

但是,对于大型数据集(500MB或更高),我希望能够使用PyTables"Tables"格式的更具可伸缩性的随机访问和查询功能,这样我就可以在内存之外执行查询,然后将更小的结果集加载到内存中进行处理.然而,这里的一大障碍是写性能.是的,正如我所说,我的工作流程是一次写入,多次读取,但相对时间仍然是不可接受的.

作为一个例子,我最近在我的48核心机器上运行了一个大型的Cholesky分解,花了3分8秒(188秒).这会生成~2.2 GB的跟踪文件 - 跟踪与程序并行生成,因此没有额外的"跟踪创建时间".

我的二进制跟踪文件初始转换为pandas/PyTables格式花费了相当多的时间,但很大程度上是因为二进制格式是故意无序的,以减少跟踪生成器本身的性能影响.这与从Storer格式转换为Table格式时的性能损失无关.

我的测试最初是用pandas 0.12,numpy 1.7.1,PyTables 2.4.0和numexpr 0.20.1运行的.我的48核心机器每个核心运行2.8GHz,我正在写一个ext3文件系统,它可能(但不一定)在SSD上.

我可以在7.1秒内将整个数据集写入Storer格式的HDF5文件(生成文件大小:3.3GB).写入表格式的相同数据集(结果文件大小也是3.3GB),写入需要178.7秒.

代码如下:

with Timer() as t:
    store = pd.HDFStore('test_storer.h5', 'w')
    store.put('events', events_dataset, table=False, append=False)
print('Fixed format write took ' + str(t.interval))
with Timer() as t:
    store = pd.HDFStore('test_table.h5', 'w')
    store.put('events', events_dataset, table=True, append=False)
print('Table format write took ' + str(t.interval))

Run Code Online (Sandbox Code Playgroud)

输出很简单

Fixed format write took 7.1
Table format write took 178.7

Run Code Online (Sandbox Code Playgroud)

我的数据集有28,880,943行,列是基本数据类型:

node_id           int64
thread_id         int64
handle_id         int64
type              int64
begin             int64
end               int64 …

Run Code Online (Sandbox Code Playgroud)

python performance hdf5 pytables pandas

Pet*_*ney

2013 11-21

32
推荐指数

2
解决办法

1万
查看次数

调用函数时的Pandas,大数据,HDF表和内存使用情况

简短的问题

当Pandas在HDFStore上工作时(例如:.mean()或.apply()),它是否将内存中的完整数据作为DataFrame加载,还是作为Serie逐个记录处理？

详细描述

我必须处理大数据文件,我可以指定数据文件的输出格式.

我打算使用Pandas处理数据,我想设置最佳格式,以便最大化性能.

我已经看到panda.read_table()已经走了很长一段路,但它仍然至少需要与我们想要读取的原始文件大小一样多的内存(实际上至少是内存的两倍)才能转换为DataFrame .这可能适用于高达1 GB但高于1 GB的文件？这可能很难,特别是在在线共享机器上.

但是,我已经看到,现在Pandas似乎支持使用pytables的HDF表.

我的问题是:当我们在整个HDF表上进行操作时,Pandas如何管理内存？例如.mean()或.apply().它是首先在DataFrame中加载整个表,还是直接从HDF文件处理数据而不存储在内存中？

问题:磁盘使用情况下hdf5格式是否紧凑？我的意思是,它像xml一样冗长或更像JSON吗？(我知道有索引和东西,但我在这里对数据的简单描述感兴趣)

memory hdf5 large-data pandas

gab*_*ous

2017 09-23

5
推荐指数

1
解决办法

3519
查看次数

使用PyTables索引500 GB HDF5文件

我想将一个带键的500GB-800GB表转储到HDF5中,然后检索与特定键匹配的行.

对于HDF5文件,像所有数据访问这样的项使用整数"行"数字,所以我似乎必须在HDF5之外实现"行号键映射".

这会有用吗？我是否需要访问内存(RAM)中的整个HDF5？

任何人都可以告诉我HDF5在这种情况下的表现有多糟糕吗？如果有合适的索引,这只是一本庞大的字典,对吧？

我应该使用其他东西吗？

python hdf5 bigdata pytables h5py

Sha*_*ang

2017 09-23

0
推荐指数

1
解决办法

846
查看次数

标签统计

hdf5 ×5

pandas ×4

python ×4

large-data ×2

pytables ×2

bigdata ×1

h5py ×1

memory ×1

mongodb ×1

performance ×1

sqlite ×1

使用熊猫的"大数据"工作流程

HDF5 - 并发,压缩和I/O性能

改善pandas(PyTables？)HDF5表写性能

调用函数时的Pandas,大数据,HDF表和内存使用情况

简短的问题

详细描述

使用PyTables索引500 GB HDF5文件

标签 统计

标签统计