Adr*_*ian 21
我最近遇到了Google Refine - 它不是用于验证CSV文件的服务,它是您在本地下载的工具,但它确实提供了许多用于处理数据和检测异常的工具.
http://code.google.com/p/google-refine/
如回复中所述,"CSV"已成为一个定义不明确的术语,主要是因为人们在使用分隔符分隔数据时不遵循One True Way
http://www.catb.org/~esr/writings/taoup/html/ch05s02.html
编辑/更新(2016-08-09):
CSV目前成为W3C CSV工作组的明确术语
ldo*_*dds 10
开放数据研究所正在开发一种CSV验证服务,允许用户检查其数据结构并根据简单模式对其进行验证.
该服务仍然非常alpha,但可以在这里找到:
应用程序和底层库的代码都是开源的:
https://github.com/theodi/csvlint
https://github.com/theodi/csvlint.rb
库中的README提供了可生成的错误和警告的摘要.可以报告以下类型的错误:
:wrong_content_type - 内容类型不是text/csv:ragged_rows - 行具有不同数量的列(比文件中的第一行):blank_rows - 完全空行,例如空行或所有列值为空的行:invalid_encoding - 解析行时编码错误,例如因为无效字符:not_found - 检索数据时出现HTTP 404错误:quoting - 报价问题,例如缺失或流浪报价,未公开的报价字段:whitespace - 引用列具有前导或尾随空格可以报告以下类型的警告:
:no_encoding - HTTP请求中返回的Content-Type标头没有charset参数:encoding - 字符集不是UTF-8:no_content_type - 正在提供没有Content-Type标头的文件:excel - 没有Content-Type标头,文件扩展名为.xls:check_options - CSV文件似乎只包含一列:inconsistent_values - 同一列中的值不一致.报告是否<90%的值似乎具有相同的数据类型(数字或字母数字,包括标点符号)| 归档时间: |
|
| 查看次数: |
40353 次 |
| 最近记录: |