怎么样理解元数据、数据堆栈和数据目录3.0?

1.数据资产 》表格

Data Catalog 2.0 生成的首要条件是“表格”是唯一需要管理的资产。但目前完全不同了。

现在,BI 仪表板、代码片段、SQL 查看、模型、功能和 Jupyter 笔记本都是数据资产

3.0代元数据管理将需要足够灵活,以便智能地存储和将所有这部分不相同种类型的数据资产链接在一个地方。

2.端到端数据可见性,而不是零碎碎的解决方法

数据目录 2.0 年代的工具在改进数据发现方面获得了重大进展。然而,他们并没为组织提供数据的“单一事实出处”。有关数据资产的信息一般分布在不一样的地方——数据沿袭工具、数据水平工具、数据筹备工具等等。数据目录 3.0 将帮团队最后达成圣杯,即组织中每一个数据资产的单一事实出处。

3.元数据为“云数据”的世界而构建

大家正在迅速接近元数据本身就是云数据的世界。 可以处置和理解元数据或有助于团队更好地理解和信赖他们的数据。

这就是为何新的数据目录3.0应该不止是一个元数据存储是什么原因。

它应该从根本上借助元数据作为一种数据形式,可以以与所有其他种类的数据相同的方法进行搜索、剖析和维护

今天,云的可扩展性使这成为可能,这是前所未有些。 比如,查看日志只不过当今可用的一种元数据。 通过分析 Snowflake 中查看日志中的 SQL 代码,可以自动创建列级沿袭,为每一个数据资产分配时尚度分数,甚至可以判断每一个资产的潜在所有者和专家。

4. 嵌入式协作已经成熟

Airbnb 在推荐他们在推进使用内部数据门户方面的经验时说了一些深刻的话:“设计数据工具的界面和客户体验不应该是事后的想法。”

因为数据团队的基本多样性,需要设计数据工具以与团队的平时工作步骤无缝集成。

这就是嵌入式协作理念真的活跃的地方。嵌入式协作是指在你所在的地方进行工作,摩擦最少。

假如可以在获得链接时请求访问数据资产,就像用 Google Docs 一样,并且所有者可以在 Slack 上获得请求并立即批准或拒绝它,该如何解决?或者,当你检查数据资产并需要报告问题时,你可以立即触发与工程团队的 JIRA 工作步骤完美集成的支持请求,该如何解决?

嵌入式协作可以统一数十个如此的微型工作步骤,这部分工作步骤会费时、导致挫折并致使数据团队的工具疲劳,反而让这部分任务变得有趣!

商品:collibra,Alation

伴随数据变得愈加主流并扩展到 IT 团队以外,数据管理的想法开始生根发芽。这指的是一组专门负责管理组织数据的职员。他们将处置元数据、维护治理实践、手工记录数据等。

与此同时,元数据的想法发生了变化。伴随公司开始打造大规模的 Hadoop 推行,他们意识到容易的 IT 数据清单已经不够了。相反,新的数据目录需要将数据清单与新的业务环境相融合。

就像这个年代超级复杂的 Hadoop 系统一样,Data Catalog 2.0 非常难设置和维护。它们涉及严格的数据治理委员会、正式的数据管理员、复杂的技术设置和冗长的推行周期。总而言之,这个过程可能需要长达 18 个月的时间。

这个年代的工具基本上是打造在整体构造上并部署在当地的。 每一个数据系统都有我们的安装程序,公司没办法通过推送容易的云更新来推出软件更改。

技术债务不断增长,元数据管理开始稳步落后于其他现代数据栈

尽管其他数据基础构造堆栈在过去几年中得到了进步,而且 Fivetran 和 Snowflake 等工具让用户可以在不到 30 分钟的时间内打造一个数据仓库,但数据目录却跟不上。即便尝试用 Data Catalog 2.0 年代的元数据工具也需要花费很多的工程时间进行设置,更不需要说至少与销售代表进行 5 次通话以获得演示

因为缺少可行的替代策略,现代数据堆栈的最早使用者和大部分大型科技公司都诉诸于构建我们的内部解决方法。 一些著名的例子包括 Airbnb 的 Dataportal、Facebook 的 Nemo、LinkedIn 的 DataHub、Lyft 的 Amundsen、Netflix 的 Metacat 和 Uber 的 Databook。

然而,并非所有些公司都有如此的工程资源,而且构建几十个类似的元数据工具并非特别有效。

今天,大家正处于元数据管理的转折点——从缓慢的内部部署数据目录 2.0 转变为新年代数据目录 3.0 的开始。就像从 1.0 到 2.0 的跳跃一样,这将是大家对元数据的怎么看的根本转变

Data Catalog 3.0 的外观和感觉与 Data Catalog 2.0 代的前辈不同。相反,数据目录 3.0 将打造在嵌入式协作的首要条件下,这是当今现代工作场合的重要,借鉴了 Github、Figma、Slack、Notion、Superhuman 和其他当今不足为奇的现代工具的原则

商品:Informatica、Talend

元数据在技术上自古以来就存在——比如 附在亚历山大图书馆每卷卷轴上的描述性标签。然而,元数据的现代定义可以追溯到 1900 年代后期。在 1990 年代,大家庆幸将软盘放在一边,并拥抱了这种称为网络的新奇工具。非常快,云数据和数据科学盛行一时,组织正试图弄了解怎么样组织他们的新数据集合。

伴随数据种类和格式与数据本身的爆炸式增长,IT 团队负责创建“数据清单”。像 Informatica 如此的公司在元数据管理方面处于领先地位,但对于 IT 职员来讲,打造和维持新的数据目录一直是一项艰巨的任务。

数据仓库团队常常花费很多时间谈论、担忧元数据,并为元数据感到内疚。因为大部分开发职员天生厌恶文档的开发和有序归档,因此尽管每一个人都承认元数据非常重要,但元数据一般会从项目计划中删除。”

2021年给大家的平时词语带来了不少新词语——想想冠状病毒、封锁、大时尚、退款。但在数据世界中,另一个短语一直在流传……现代数据堆栈

数据世界近期汇集了处置大量数据的最好工具集,即“现代数据堆栈”。这包括在相同种类最好工具上设置数据基础构造,比如用于数据仓库的 Snowflake、用于数据湖的 Databricks 和用于数据摄取的 Fivetran。

现代数据堆栈的优点:现代数据堆栈飞快,比较容易在几秒钟内扩展,而且需要极少的开销。缺点:在数据治理、信赖和上下文方面,它仍然是个小白

那样,现代元数据在今天的现代数据堆栈中应该是什么样子呢?基本数据目录怎么样进步成为数据民主化和治理的强大工具?为何要进行元数据管理需要一个范式的转变来满足今天的需要?

几年前,数据主要由组织中的 IT 团队用。然而,今天的数据团队比以往任何时候都愈加多样化——数据工程师、剖析师、剖析工程师、数据科学家、商品经理、业务剖析师、公民数据科学家等等。这部分人中的每个都有自己喜欢的、同样多样化的数据工具,从 SQL、Looker 和 Jupyter 到 Python、Tableau、dbt 和 R。

这种多样性既是一种力量,也是一种斗争。这部分人都有不一样的解决问题的方法、工具、技术组合、技术堆栈、工作方法……本质上,他们每一个人都有独特的“数据 DNA”。

结果总是是协作中的混乱。让人沮丧的问题,比如“此列名字事实上的意思是?” 和“为何仪表板上的销售数字又错了?” 在需要用数据时让迅速团队陷入困境。

这部分问题并不新鲜。毕竟,Gartner 发布元数据管理解决方法魔力象限已经超越 5 年了。

但仍然没非常不错的解决方法。大部分数据目录只是 Hadoop 年代的创可贴解决方法,而不是跟上当今现代数据堆栈背后的革新和进步。

就像数据一样,大家考虑和用元数据的方法在过去三年中一直在稳步进步。它可以大致分为三个演进阶段:数据目录 1.0、数据目录 2.0 和数据目录 3.0。

时间:1990 年代和 2000 年代初

– 拉尔夫·金博尔,2002

时间:2008-2021

为何存在连接元数据?

因此,假如存在如此的问题,为何不停止创建所有这部分元数据,或者至少将其设为私有?不幸的是,事情并没那样容易:公共元数据对于网络现在的运作方法至关要紧,这是一个无人可以想象网络会进步到多大的年代的遗物,或者恶意行为者可能会怎么样滥用它。

基本上,可以把它想象成邮寄一封信。内容可以密封在信封中,但要到达目的地,信封需要了解地注明地址。其他人都可以读取此地址信息。假如他们想,他们可以记下信封的去向、信封有多大与何时寄出。伴随时间的推移,他们可以打造这部分信息的数据库并开始探寻模式。所有这部分都不需要打开信封。

假如我可以看到你在哪些商店购物、你正在用哪些应用程序与你向哪个发送消息,我事实上无需知晓你的消息内容或你购买的完整详细情况来判断不少关于你的信息。

但哪个真的看到了这个元数据?每次上网时,数十家不一样的公司和服务都会看到并可能记录此元数据。有网络服务提供商 、电信公司、使网络正常工作的 DNS 服务器和内容出货互联网 ,比如 Cloudflare,它们事实上为大多数 Web 内容提供服务。大部分状况下,这部分服务都在未经你赞同的状况下采集和存储有关你的信息。

现代互联网服务相互关联的方法意味着这个列表只能增加。比如,假如访问一个嵌入了 YouTube 视频的网站,那样即便不点击视频,Google 也会收到访问公告。这部分信息可以通过IP 地址轻松链接到用户的名字,Google通过用户的Google帐户知晓用户的名字,并添加到Google维护的关于用户的详细档案中。不止是Google。同样的事情也发生在 Facebook,或者像 Medium 如此的博客推广托管网站,或者即时消息平台。这所有都无需 cookie 或任何额外的代码,更改你的隐私设置也不会阻止它。这就是当今网络的运作方法。

那时大家甚至还没遇见黑客、政府过度干涉等问题,与假如用户是在线企业,怎么样安全地处置和保护元数据的巨大问题,目前监管机构已经开始注意到这一点。但这部分是将来剧集的主题。

公共连接元数据在 Internet 的工作方法中根深蒂固,因此没容易的解决方法。解决它的唯一办法是使用全新的数据传输办法。

现在,区块链项目开始关注这一范围。即便得用户、公司和设施在完全隐私的状况下,进行在线交换信息。通信和买卖的人可以确保无人可以知晓正在共享哪些数据、哪个正在发送或接收数据,甚至有多少数据被发送。

非常重要的是,拥有去中心化的、完全透明且不需要信赖的特征,意味着永远不必依靠第三方,也从来不会被锁定在服务中或不能不放弃对数据的控制。

为何保护元数据这样要紧?

连接元数据是你在线进行操作时生成的数据,比如访问网站、用应用程序或发送消息。此元数据记录信息,比如哪个发送了数据(以 IP 地址的形式)、他们将数据发送到什么地方(另一个 IP)、何时与发送了多少数据。简而言之,它是关于数据的数据。

就其本身而言,这好像并不多,但每次在线互动都会生成数十个元数据,几乎都是公开的或易于查找的。假如有人采集了足够多的元数据,他们非常快就会了解地知道你的在线活动,并知道你的线下生活。即便连接是端到端加密的,这也是可能的。

你会喜欢下面的文章?