我很想知道在Avro中编码两种非常特定类型的数据的最佳实践:时间戳和IP地址.
我遇到了Timestamps的开放式JIRA票证(https://issues.apache.org/jira/browse/AVRO-739),但看起来主题已经安静了一段时间.那么 - 在Avro中编码时间戳的最佳实践是什么(最好是在MapReduce,Pig,Hive,Streaming上下文中用于下游).
此外,我很想知道其他人正在做什么来将IP地址编码到Avro中.
小智 1
我对 Avro 中的类型编码有一些经验。就我而言,一个很大的要求是通过 Hive 访问数据。
对于时间戳,我建议使用带有 unix 时间戳的浮点数。大多数其他库都支持这一点,并且可以轻松地与 Hive 配合使用,因为您可以转换为时间戳。
对于 IP 地址,我将使用字符串编码。我认为使用数据时字符串的可读性使其成为最佳类型。如果您有其他要求,例如减小数据大小,也许二进制编码可能更适合您。
| 归档时间: |
|
| 查看次数: |
2388 次 |
| 最近记录: |