什么是数据虚拟化?

Joh*_*van 5 replication backup restore virtualisation daas

我刚刚被问到我们公司是否应该考虑Data Virtualization我们的测试环境。好处如下:

  • 筛选敏感数据
  • 在我们的测试环境中快速刷新数据
  • DR 和 BI 场景的潜在好处

但是我只找到了营销信息;没什么技术含量。据我所知,有两种方法:

  • 生产数据库上的服务层,它将您从数据模型中抽象出来(大概会导致该新层呈现不同的数据模型)。
  • 一种自动化数据恢复和后续操作的工具,可供非技术用户使用,比使用数据库备份和 SQL 脚本更快。

在没有看到任何技术信息的情况下,这对我来说是蛇油的味道;但我想理解它,而不是一发不可收拾。


关键词:[数据即服务] [数据虚拟化] [数据虚拟化] [delphix] [denodo]

Dav*_*ole 3

数据虚拟化是提供抽象层,因此数据消费者不必知道原始数据的物理位置或格式。您可能有一个 PostGres DB、一个 MySQL DB、一个 SQL Server DB、一整批 Parquet/ORC 文件,而编写查询的人完全不知道这种物理性。就他们而言,他们正在连接到 Presto(或您选择使用的任何数据虚拟化解决方案)。

Apache Presto 等技术允许运行 SQL 查询的中心点,但 Presto 本身配置为知道源数据在哪里以及什么,最终用户不需要知道。Presto 是一款开源工具,获得了 Teradata 的大量投入,特别是在 JDBC 连接、安全性和 LDAP 身份验证方面。它还得到了 StarBurst 的商业支持。Starburst 最近宣布推出基于成本的 Presto 查询优化器。

AWS 对 Presto 充满信心,因为他们将 AWS Athena 建立在它的基础上。它的优点在于数据不必驻留在关系数据库中。它也可以是基于文件的。

在筛选敏感数据方面,您可以选择谁有权访问什么数据,但它不是数据屏蔽或混淆工具。

它不是万金油,但也不是灵丹妙药。显然源系统受到了攻击,您必须了解该攻击是什么。主要好处是您不必到处移动数据,并且拥有大量技术来支持数据移动。

  • 就刷新测试环境而言,这取决于谁有权访问该测试环境。如果您有 AS-LIVE/生产环境的概念,那么您可以使用数据虚拟化作为刷新环境的托管方法。您的数据虚拟化解决方案可以访问生产,您的刷新作业可以访问您的数据虚拟化,并且不需要/风险将测试环境连接到生产环境。 (2认同)
  • 我将数据分为“可以从实时复制的数据”、“必须混淆的数据”和“必须在非生产环境中生成的数据”。GDPR 让我对参考数据以外的复制数据感到紧张。就我个人而言,我会将参考数据置于源代码控制之下,而不是在环境之间复制它。 (2认同)