新知一下
海量新知
6 3 0 1 7 4 1

【御数·译文】使用复杂数据模型

御数坊 | 御数有道,独具匠心 2020/09/23 18:09

复杂的数据模型现在已成为常态。单个数据流可以穿越许多中心和许多不同的技术。它可能会遍历前端,API,Kafka发布/订阅系统,Lambda函数,ETL,数据湖,数据仓库等。模式位于该数据流中,每个模式还具有自己特定的技术术语和语法,以及自己的数据类型和生命周期。结果,随着时间的流逝,数据建模师 变得更加困难。

使数据建模人员更加困难的另一个因素是,他们还必须了解目标技术。数据以多种方式被消费-例如机器学习,自然语言处理,人工智能,区块链等。数据世界比过去变得更加复杂。NoSQL数据库和通信协议中可用的所有选择都增加了以下方面的复杂性:数据建模。

物理数据模型变得复杂

IDEA

物理数据模型展示了已经在数据库管理系统中实现或将要实现的数据设计的图像。它是一个特定于数据库的模型,代表关系数据对象(列,表,主键和外键)及其关系。同样,物理数据模型可以生成DDL(或数据定义语言)语句,然后将其发送到数据库服务器。

实现物理数据模型需要对数据库系统的特征和性能参数有很好的理解。例如,当使用关系数据库时,有必要了解列,表以及列与表之间的关系的组织方式。无论数据库是哪种类型(列式,多维或其他类型的数据库),了解DBMS的细节有利于整合模型。据Hackolade 的创始人和CEO, Pascal Desmarets称:

从历史上看,物理数据建模通常集中在单个关系数据库的设计上,而DDL语句是预期的操作动作。这些语句通常是通用的,不同供应商之间在功能和SQL语言方面存在很小的差异。但是按照当今大型企业使用的规模,这些模型变得很复杂。”

如今,企业已经接受了基于API和微服务的现代IT体系结构,包括具有消息队列,远程过程调用等的复杂通信协议。“他们使用具有来自NoSQL供应商的特殊数据库的不同类型的数据库来执行多语言持久性”。他们每个都有特殊的存储模型。机器学习,自然语言处理,人工智能,区块链和其他方式以更多方式消费数据。因此,环境比过去变得更加复杂。

“过去它们只是生成DDL,就目标技术而言,这相当简单。现在,数据建模人员需要了解和集成每种技术的特征,以便物理数据模型可以真正利用各自的优势。”

多种语言数据模型

IDEA

“会说多种语言的人”是会说多种语言的人。术语“多语言数据模型”表示使用多种数据库技术来读取特定类型的数据。用多语言数据模型,数据服务可以使用不同的数据库技术并与之交互,从而提供多种处理和访问数据的方式。

但是,许多组织正在使用传统的逻辑模型来实现此目标。需要新的数据模型来表示静态数据和动态数据。现代数据包含复杂的嵌套数据类型,并且它可能是多态的,需要更多的工作才能将传统的逻辑模型使用不同技术转换为相应不同的物理模型。

Desmarets对多语言数据模型发表了评论,说:

“我们看到公司已经积累了概念和逻辑模型来描述其业务和企业的信息系统。他们已经做了一笔大投资。显然,即使技术不断发展并变得越来越复杂,信息架构部门也希望利用这项投资。”

根据他的客户的反馈:

“我们认为有必要扩展逻辑模型的定义。尽管逻辑模型仍然与技术无关,但逻辑模型不应仅是数据定义的最小公分母,而且有可能做出折中以适应最严格的技术。

复杂性和规模

IDEA

使用的技术种类越多,组织及其物理数据模型就越复杂。可以将组织内的不同部门视为链中的链接,其中某些部门使用不同的技术。因此,并非链上的所有链接都可以通过一个简单的命令更改,也不能同时更改。Desmarets提供了此评论:

“处理复杂性和规模的能力是另一个挑战。看来公司拥有数百甚至数千(甚至数万)的API 和 微服务,并且使用多种不同的技术进行处理。他们的模式围绕着不同技术,每个都有自己的生命周期。”

API和微服务的数量决定了有效运行所需的规模。几十年前,当使用三层体系结构的单片应用程序流行时,规模并不是什么大问题。但是,当今的现代系统使用各种服务,因此必须增加系统规模以匹配服务。

数据建模的未来

IDEA

随着对理解系统如何工作以及如何操纵它的需求的增长,数据建模的使用将变得越来越重要。 在2020年 元数据(用于查找数据的数据标签)将成为数据建模的重中之重。这部分是由于其在研究过程中的重要性。将元数据包含在数据模型中可以更容易地可视化并确定其在管理数据中的重要性。

当被问及数据建模的未来时,Desmarets表示:

“我们的路线图由两条主要路线组成。一种是添加应用程序中每个数据建模人员都期望并需要的功能,以执行数据建模,甚至用于NoSQL和模式设计。同时,我们将增加对目标技术的支持,以满足客户不断增长的需求:更多NoSQL数据库,关系数据库中的JSON,大数据分析平台,存储格式,云数据库,通信协议等。”

目前,Hackolade致力于创建这种多语言数据模型,该模型允许建模人员一次定义结构,并能够以非常方便的方式使用这些不同的技术生成模式。客户正面临着这一新挑战,因此Hackolade将其抽象为一系列即将推出的功能。

他说:“我们正在研究的另一个项目。” “也许更具策略性,是能够推断存储在关系数据库的blob中的JSON模式,从而导致更完整的半结构化数据模型。”

他指出,此举并不是要与已建立的数据建模工具竞争,而是要对它们进行补充并为客户增加价值。Hackolade的重点是解决组织面临的新挑战,同时利用其在这些传统工具上的现有投资。

原文:

https://www.dataversity.net/working-with-complex-data-models/Keith D. Foote

(完)

更多“数据模型”相关内容

更多“数据模型”相关内容

新知精选

更多新知精选