新知一下
海量新知
6 6 5 2 2 0 9

学会解释数据是数据治理工作的基础——如何构建和实施元数据策略

御数坊 | 御数有道,独具匠心 2022/11/02 16:20

原文来自:Keith D. Footeon 发表在 “Dataversity” 文章《Creating and Implementing a Metadata Strategy》

制定一个既符合企业业务场景,又能够行之有效的元数据策略是保持业务不断发展和效率不断提高的重要因素。元数据是用于标识大数据集合(图像、文本、文件、数字对象等)的数据定义,说的直白一些就是“解释数据的数据”。但元数据需要解释的数据来源是非常丰富的,这些数据可能是通过系统操作产生的,也有可能是用户访问产生的,或者是数据流通、集成、分析、清理等情况下产生的,如果要对这些复杂的数据集设定一个元数据来定义和解释它们,确实是一个难题!

面对这样的难题,一些企业、组织就索性将构建一个完整的数据架构这件事搁置,但随之而来的是当业务不断不断增长,数据变得越来越分散和杂乱无章。最终导致企业员工对取数用数越来越复杂且具有挑战性。在数字化转型的背景下,企业想在这个数字时代取得成功,永远也绕不过元数据这个难题,他们必须能够快速有效地定位和使用他们的数据。

对于企业制定一个元数据,不管是利用手动还是自动的方式,最终的用途就是希望能够通过元数据轻松的查找到所需的数据,能够让各个部门在各个层面上都可以自由调用数据,让数据价值得到充分体现。

新知达人, 学会解释数据是数据治理工作的基础——如何构建和实施元数据策略

说到元数据,不如先了解一下元数据的分类。元数据是标记传达的信息(描述符或关键字)通常与对应的数据相关联,例如标题、日期、创建者或技术信息。元数据的管理内容较多,从高维度上可以划分为业务元数据、技术元数据、管理元数据,其中的管理元数据进一步细分又可以划分出认责元数据、稽核元数据、安全元数据、操作元数据、存储元数据等分类。

新知达人, 学会解释数据是数据治理工作的基础——如何构建和实施元数据策略

当然,也可以针对元数据传达数据的使用方式,将元数据分为六个基本类型:

  • 描述性元数据: 这种类型的元数据用于发现和识别。它包括标题、作者和关键字等描述。

  • 结构元数据: 包含有关数据容器的描述。它描述了数字材料的版本、关系和其他特征。

  • 管理元数据: 用于管理资源的信息,例如资源类型、权限以及创建数据的方式和时间。

  • 引用元数据: 这种形式的元数据是关于统计数据的内容和质量。

  • 统计元数据: 可用于描述收集、处理或生成统计数据所涉及的过程。

  • 法律元数据: 它提供有关创建者、版权所有者和公共许可证的信息。

元数据的分类方法和分类层面有很多,但元数据的目的只有一个,就是提供一种索引、保存、访问和发现数字资源的方法。所以我们不要拘泥于元数据到底有几种分类,最重要的是我们希望得到一系列对企业数据质量有帮助的,且符合企业业务场景的元数据。

数据标准和元数据

不管分类如何变化,实质性内容都是围绕数据的统一定义、数据的标准规范、数据的处理过程、数据的存储要求、数据的安全管理要求等等内容进行规范管理。

元数据策略必须不能违反数据标准制定出的内容,同时也要符合对隐私法规或法律(例如 GDPR、CCPA 或 LGPD ),行业标准的规范。数据标准的制定为数据资产提供了认责机制,并确保元数据的定义能够始终准确一致。

做好业务术语和数据标准管理,一是能为数据规划、数据设计开发提供支撑依据,通过数据标准的分布,了解数据资产分布,识别数据交互关系,进而指导信息化建设初期时对数据的建设规划;二是基于对数据的明确定义,支撑数据模型的设计、数据功能的开发及校验要求;三是在后期的数据质量治理工作中,数据标准为数据质量校验规则提供可靠的参考依据,提高数据质量工作的效率。

新知达人, 学会解释数据是数据治理工作的基础——如何构建和实施元数据策略

开发和实施的重点问题

全面了解组织的元数据对于有效实施元数据策略至关重要。想要得到一款高度适用的元数据系统涉及许多步骤。安排组织、实施和测试系统所需的计划尤其重要,企业需要逐步来确定系统是否能够满足所有要求。重点是,实施计划应包括项目的时间表和所有细节。

实施计划应将流程分解为两类,一类是分散的任务,一类是可管理的任务。例如,数据资产地图是对企业所有产生的数据资产进行展示,包括了任何形式的数据湖、数据仓库、数据库、云存储、电子邮件和其他存储。对这些数据都应该单独列出它们的存储方式并安排研究。让分散的任务逐步归于可管理的任务中。

实施元数据策略通常包括以下步骤:

开发元数据模板: 此时,目标是确定应使用哪些类型的元数据来最大程度地提高其发现能力。这需要从使用数据的人员那里收集有关如何最好地设计模板的信息。在此信息收集阶段,可以采访员工,调查客户,并可以设置研讨会以获得IT和利益相关者的意见。请务必评估客户端和业务用户如何标记自己的元数据并识别常见元素。

  • 确定要使用的元数据类型: 此处的目标是确定以下元数据的类型:找到 最佳的 企业需求(描述性、结构性、行政性、参考性、统计性、法律性)。确定哪些类型的元数据最能描述组织的数据资产,包括整数、自由文本、字符串、日期或日期/时间字段。然后确定是否 需要规则 (例如,标题字段可能需要限制为 50 个字符,或者日期/时间字段可能需要使用国际显示标准)。

  • 建立元数据词汇表: 应开发描述符的正式定义,以实现元数据的一致性。通常,元数据词汇表基于特定域的数据。元数据元素通常按类别分组,例如,客户数据、产品数据和图像。开发元数据词汇表以支持词汇表,并有助于沟通,也应成为数据治理战略的一部分,该战略也有助于数据质量的提升。

  • 注意主题元数据 :奇怪的是,元数据包含...子元数据。元数据的元数据结构通常有自己的元数据。它可能是描述性名称或字符长度。 主题元数据 是此类元数据的正确名称。主题元数据的描述符可用于将贡献合作伙伴和机构的记录与其他记录联系起来,使其更易于查找。

  • 映射元数据: 创建某种可跟踪的图表。它可以是计算机上的电子表格或表格。白板是一种不错的选择,但要注意请使用一块专用白板,而不要使用公共的白板进行记录,这样可以防止意外擦除。使用从前面步骤中收集的信息,绘制出指示其使用位置和方式的元数据。 列出元数据及其位置后,查找常用描述信息。 (有时描述信息具有不同的名称,但具有相同的目的。 出于研究目的,它们有资格作为通用描述信息。 请记住,能够将数据追溯到其原始来源(例如ERP或CRM系统)非常重要。

  • 创建一个 数据目录: 数据目录是企业数据资产的有组织清单。应按计划维护和更新此目录。

评估: 在此阶段,目标是确定是否需要任何导入/导出、同步或主数据管理工具,以保持整个业务中的元数据一致和干净。以下信息将有助于确定如何设计元数据以及元数据管理工具研究支持元数据策略。

了解人员和流程:这是评估阶段的重要组成部分,涉及了解流程的工作原理、人们遇到的问题及其解决方案。下面列出了一些更好地了解人员和流程的方法:

  • 跟踪数据在业务中的移动方式。当数据在系统内移动时,查找通用描述。

  • 了解如何使用元数据。它是用于填写表单还是用于连接其他系统?它会启动工作流程吗?

  • 确定描述的组织方式。元数据捕获过程是否允许使用自由样式方法来标记内容(称为Folksonomy )还是会完全自动化?

  • 员工需要哪些培训或教育才能顺利适应变化?培训将如何完成?

设计元数据模型以实现持续改进: 反馈对于元数据模型的持续改进和发展非常重要。收集员工和客户的反馈以确保元数据计划继续支持业务目标至关重要。

以下是将持续改进纳入设计的一些建议:

  • 定期与经理一起访问元数据模型的功能。

  • 随着业务目标的变化,元数据模型可能也需要更改。

  • 为对元数据有建议或投诉的任何人提供反馈机制。

尽可能实现自动化:自动化有三个基本原因。它要快得多;它消除了人为错误;它“自动”确保任务完成。自动化元数据可以显著减少花在数据标记和编目等任务上的时间。(这一点可以关注御数坊DGOffice数据治理工具产品的相关功能)

实施元数据策略的好处

元数据是从数据中获得最大价值的重要因素。它可确保数据一致性,支持数据标准,并有助于实现法规遵从性。它还支持企业在研究自身业务发展的时候能够做出明智的选择。

使用智能化工具对元数据进行创建、管理、应用,是最高效的方法,当然也是最需要成本的方式。员工可以随时访问最新数据,提高效率和数据质量(并做出更好的决策)。自动化可用于数据标准、分类分级和数据资产盘点。因此,在智能化产品的加持下,所有数据不一致和其他问题都会得到实时纠正。

警告:在实施元数据策略之前,应进行彻底的研究(或委托咨询机构或聘请咨询顾问——御数坊可能是个不错的选择)。一味的照本宣科,或在不起作用的工具上浪费时间和金钱,都会获得适得其反的效果。

更多“元数据”相关内容

更多“元数据”相关内容

新知精选

更多新知精选