数据类型识别/猜测python中的CSV数据

poe*_*ezn 17 python csv algorithm schema heuristics

我的问题是处理来自大型CSV文件的数据.

我正在寻找最有效的方法来确定(即猜测)列的数据类型,基于该列中找到的值.我可能正在处理非常混乱的数据.因此,该算法在某种程度上应该是容错的.

这是一个例子:

arr1 = ['0.83', '-0.26', '-', '0.23', '11.23']               # ==> recognize as float
arr2 = ['1', '11', '-1345.67', '0', '22']                    # ==> regognize as int
arr3 = ['2/7/1985', 'Jul 03 1985, 00:00:00', '', '4/3/2011'] # ==> recognize as date
arr4 = ['Dog', 'Cat', '0.13', 'Mouse']                       # ==> recognize as str

Run Code Online (Sandbox Code Playgroud)

底线:我正在寻找一个可以检测的python包或算法

CSV文件的架构,甚至更好
将单个列的数据类型作为数组

用于猜测当前表示为字符串的数据类型的方法在类似的方向上进行.不过,我担心性能,因为我可能正在处理许多大型电子表格(数据源于此)

您可能对这个python库感兴趣,它可以为您完成这种类型的CSV和XLS文件猜测:

它很高兴扩展到非常大的文件,从互联网上流式传输数据等.

还有一个更简单的包装器库,其中包含一个名为dataconverters的命令行工具:http://okfnlabs.org/dataconverters/ (和一个在线服务:https://github.com/okfn/dataproxy!)

进行类型猜测的核心算法如下:https://github.com/okfn/messytables/blob/7e4f12abef257a4d70a8020e0d024df6fbb02976/messytables/types.py#L164

在考虑之后,这就是我自己设计算法的方法:

出于性能原因:为每列提取样本(例如,1%)
为示例中的每个单元格运行正则表达式匹配,检查数据类型
根据频率分布为列选择适当的数据类型

出现的两个问题:

什么是足够的样本量？对于小数据集？对于大型数据集？
根据频率分布选择数据类型的阈值是多少？

归档时间：	14 年，1 月前
查看次数：	10403 次
最近记录：	7 年，1 月前

Parse v.TrreadParse 106

猜测当前表示为字符串的数据类型的方法 4

更多相关链接

f 字符串表示与 str() 不同 73

如何在列表中获取生成器的n个下一个值(python) 41

无法使用Python在Heroku教程中启动工头 41

如何掌握就地数组修改算法？ 25

_csv.Error:迭代器应该返回字符串,而不是字节(你是否在文本模式下打开文件？) 17

有一种快速的方法来解析带有正则表达式的大文件吗？ 10

优化的OCR黑/白像素算法 8

如何将文本附加到Processing中的csv/txt文件？ 6

打印出第一行以外的csv行 4

如何处理大熊猫中的多值lineterminators 4

Flash CS4拒绝放手 2735

"最小的惊讶"和可变的默认论证 2458

如何将列表拆分为大小均匀的块？ 2068

如何在没有换行或空格的情况下打印？ 1760

将零填充到字符串的最好方法 1309

如何在SQL中使用JOIN执行UPDATE语句？ 1262

如何在PHP中使用bcrypt进行散列密码？ 1230

为什么我们需要C++中的虚函数？ 1223

URL.Combine的URL？ 1186

获取数据库中所有表的大小 1180