我想对数据库(MS SQL Server)中的数据进行分析.那么我怎样才能在Sqoop/Hive的帮助下将这些数据带到HDFS上?是否可以使用Hive/Sqoop?请建议我怎么做.
谢谢.
我正在将一个表从mysql导入到hive.该表有2115584行.在导入过程中我看到了
13/03/20 18:34:31 INFO mapreduce.ImportJobBase: Retrieved 2115584 records.
Run Code Online (Sandbox Code Playgroud)
但是当我count(*)在导入的表上执行a 时,我看到它有49262250行.到底是怎么回事?
更新:--direct指定时导入正常工作.
如果我有多个类似的表,例如:
表A "users":,列:user_name, user_id, user_address, etc etc
表B:"customers"列:customer_name, customer_id, customer_address, etc etc
表C:"employee"列:employee_name, employee_id, employe_address, etc etc
是否可以使用Sqoop将三个表导入一个HBase或Hive表?那么导入之后,我有一个HBase表包含表A,B,C中的所有记录?
我正在使用Sqoop将数据从Oracle导入Hadoop.在Oracle表中,我有大约2百万条记录,主键是我提供的分区字段.
我的sqoop工作正在完成,我得到正确的数据,工作正在运行30分钟,直到现在一切都很好.
当我检查输出文件时,我看到第一个文件是圆形的1.4 GB,第二个文件是大约157.2 MB,最后一个文件(第20个文件)是大约10.4 MB,而从3到19的所有其他文件都是0个字节.
我正在设置-m 20因为我想为我的工作运行20个映射器.
这是sqoop命令:
sqoop import --connect"CONNECTION_STRING" - query"SELECT*FROM WHERE AND\$ CONDITIONS"--split-by .ID --target-dir/output_data -m 20
注意:我的群集足以处理20个映射器和数据库,同时也能够处理20个请求.
任何想法?
谁能解释如何将分区表从配置单元导出到MYSQL数据库?
以及如何从mysql导入到配置单元分区表?
我已经阅读了google中的文档,但不确定可以使用的最新技术。
谢谢
sqoop导入/导出是否创建了java类?如果它这样做,我在哪里可以看到这些生成的类.这些类文件的位置是什么?