是否有已知的服务来验证CSV文件?

Dmi*_*mov 32 csv validation service web

有没有好的网站/服务来验证CSV文件的一致性?

W3C验证器相同,但对于CSV?

Adr*_*ian 21

我最近遇到了Google Refine - 它不是用于验证CSV文件的服务,它是您在本地下载的工具,但它确实提供了许多用于处理数据和检测异常的工具.

http://code.google.com/p/google-refine/

如回复中所述,"CSV"已成为一个定义不明确的术语,主要是因为人们在使用分隔符分隔数据时不遵循One True Way

http://www.catb.org/~esr/writings/taoup/html/ch05s02.html

编辑/更新(2016-08-09):
CSV目前成为W3C CSV工作组的明确术语


ldo*_*dds 10

开放数据研究所正在开发一种CSV验证服务,允许用户检查其数据结构并根据简单模式对其进行验证.

该服务仍然非常alpha,但可以在这里找到:

http://csvlint.io/

应用程序和底层库的代码都是开源的:

https://github.com/theodi/csvlint

https://github.com/theodi/csvlint.rb

库中的README提供了可生成的错误和警告的摘要.可以报​​告以下类型的错误:

  • :wrong_content_type - 内容类型不是text/csv
  • :ragged_rows - 行具有不同数量的列(比文件中的第一行)
  • :blank_rows - 完全空行,例如空行或所有列值为空的行
  • :invalid_encoding - 解析行时编码错误,例如因为无效字符
  • :not_found - 检索数据时出现HTTP 404错误
  • :quoting - 报价问题,例如缺失或流浪报价,未公开的报价字段
  • :whitespace - 引用列具有前导或尾随空格

可以报​​告以下类型的警告:

  • :no_encoding - HTTP请求中返回的Content-Type标头没有charset参数
  • :encoding - 字符集不是UTF-8
  • :no_content_type - 正在提供没有Content-Type标头的文件
  • :excel - 没有Content-Type标头,文件扩展名为.xls
  • :check_options - CSV文件似乎只包含一列
  • :inconsistent_values - 同一列中的值不一致.报告是否<90%的值似乎具有相同的数据类型(数字或字母数字,包括标点符号)