sqoop导入了很多NULL行

Vla*_*ala 0 hadoop hive sqoop

我正在将一个表从mysql导入到hive.该表有2115584行.在导入过程中我看到了

13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records.
Run Code Online (Sandbox Code Playgroud)

但是当我count(*)在导入的表上执行a 时,我看到它有49262250行.到底是怎么回事?

更新:--direct指定时导入正常工作.

Vla*_*ala 6

弄清楚了.从sqoop用户手册:

如果数据库的行包含字符串字段,其中存在Hive的默认行分隔符(\n和\ r \n字符)或列分隔符(\ 01个字符),则Hive将无法使用Sqoop导入的数据.您可以使用--hive-drop-import-delims选项在导入时删除这些字符以提供与Hive兼容的文本数据.

我刚刚指定--hive-drop-import-delims,它现在有效.