将元数据从 RDBMS 导入 Apache Atlas

Question

将元数据从 RDBMS 导入 Apache Atlas

Irs*_*Ali 5 apache-atlas

我正在学习 Atlas 并试图找到一种从 RDBMS（例如 Sql Server 或 Postgre Sql）导入元数据的方法。

有人可以提供参考或步骤吗？

我在 docker 中使用 Atlas，并在 HBase 和 Solr 中构建。目的是从 AWS RDS 导入元数据。

更新1 重新表述我的问题。我们可以直接从 RDS Sql Server 或 PostgreSql 导入元数据，而不在 hive (hadoop) 中导入实际数据吗？

如有任何意见或答案，我们将不胜感激。谢谢你！

Answer 1

Ram*_*ram 0

AFAIK，Atlas 适用于 Hive Metastore。

以下是有关如何在 AWS Emr 中自行创建集群时执行此操作的AWS 文档。...在 Amazon EMR 上使用 Apache Atlas 进行元数据分类、沿袭和发现

这是从 sqoop 角度来看的 Cloudera 源代码。

来自 Cloudera 来源：来自Cloudera 的 Apache Atlas 问题中的 RDBMS 填充元数据存储库。

1) 在 Atlas 中创建新类型。例如，在 Oracle 的情况下，Oracle 表类型、列类型等。
2) 创建从源元数据存储中提取元数据的脚本或进程。
3) 一旦您拥有了想要存储在 Atlas 中的元数据，您的流程将根据新类型，直接通过 REST API 使用 Java API 或 JSON 表示来创建关联的 Atlas 实体。如果您愿意，您可以在存储新实体时向其中添加沿袭。

以下文档详细介绍了如何使用 sqoop 从任何 RDBMS 迁移到 hive。

https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_data-access/content/using_sqoop_to_move_ ...

您也可以参考：http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_literal_sqoop_import_all_tables_literal

要将所有 sqoop 导入数据的元数据获取到 Atlas，请确保正确设置以下配置。

http://atlas.incubator.apache.org/Bridge-Sqoop.html

请注意，如果您的集群配置由 Ambari 管理，则不需要上述配置步骤。

归档时间：	5 年，6 月前
查看次数：	6539 次
最近记录：	3 年，8 月前