我正在将一个表从mysql导入到hive.该表有2115584行.在导入过程中我看到了
13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records.
Run Code Online (Sandbox Code Playgroud)
但是当我count(*)在导入的表上执行a 时,我看到它有49262250行.到底是怎么回事?
更新:--direct指定时导入正常工作.
弄清楚了.从sqoop用户手册:
如果数据库的行包含字符串字段,其中存在Hive的默认行分隔符(\n和\ r \n字符)或列分隔符(\ 01个字符),则Hive将无法使用Sqoop导入的数据.您可以使用--hive-drop-import-delims选项在导入时删除这些字符以提供与Hive兼容的文本数据.
我刚刚指定--hive-drop-import-delims,它现在有效.
| 归档时间: |
|
| 查看次数: |
1915 次 |
| 最近记录: |