科普｜如何理解元數據、數據堆棧和數據目錄3.0？

2020年給我們的日常詞彙帶來了很多新詞彙——想想冠狀病毒、封鎖、大流行、退款。但在數據世界中，另一個短語一直在流傳……現代數據堆棧

數據世界最近彙集了處理海量數據的最佳工具集，即“現代數據堆棧”。這包括在同類最佳工具上設置數據基礎架構，例如用於數據倉庫的 Snowflake、用於數據湖的 Databricks 和用於數據攝取的 Fivetran。

現代數據堆棧的優點：現代數據堆棧非常快，很容易在幾秒鐘內擴展，而且需要很少的開銷。缺點：在數據治理、信任和上下文方面，它仍然是個新手

數據堆棧-元數據的來源

那麼，現代元數據在今天的現代數據堆棧中應該是什麼樣子呢？基本數據目錄如何發展成為數據民主化和治理的強大工具？為什麼要進行元數據管理需要一個範式的轉變來滿足今天的需求？

為什麼現代數據堆棧比以往任何時候都更需要“現代”元數據管理？

幾年前，數據主要由組織中的 IT 團隊使用。然而，今天的數據團隊比以往任何時候都更加多樣化——數據工程師、分析師、分析工程師、數據科學家、產品經理、業務分析師、公民數據科學家等等。這些人中的每一個都有自己喜歡的、同樣多樣化的數據工具，從 SQL、Looker 和 Jupyter 到 Python、Tableau、dbt 和 R。

這種多樣性既是一種力量，也是一種鬥爭。這些人都有不同的解決問題的方式、工具、技能組合、技術堆棧、工作方式……本質上，他們每個人都有獨特的“數據 DNA”。

結果往往是協作中的混亂。令人沮喪的問題，例如“此列名稱實際上是什麼意思？” 和“為什麼儀錶板上的銷售數字又錯了？” 在需要使用數據時讓快速團隊陷入困境。

這些問題並不新鮮。畢竟，Gartner 發布元數據管理解決方案魔力象限已經超過 5 年了。

但是仍然沒有很好的解決辦法。大多數數據目錄只不過是 Hadoop 時代的創可貼解決方案，而不是跟上當今現代數據堆棧背後的創新和進步。

元數據管理的過去和未來

就像數據一樣，我們思考和使用元數據的方式在過去三年中一直在穩步發展。它可以大致分為三個演進階段：數據目錄 1.0、數據目錄 2.0 和數據目錄 3.0。

數據目錄1.0：IT團隊的元數據管理

時間：1990 年代和 2000 年代初

產品：Informatica、Talend

元數據在技術上自古以來就存在——例如附在亞歷山大圖書館每卷捲軸上的描述性標籤。然而，元數據的現代概念可以追溯到 1900 年代後期。在 1990 年代，我們慶幸將軟盤放在一邊，並擁抱了這種稱為互聯網的新奇工具。很快，大數據和數據科學風靡一時，組織正試圖弄清楚如何組織他們的新數據集合。

隨着數據類型和格式以及數據本身的爆炸式增長，IT 團隊負責創建“數據清單”。像 Informatica 這樣的公司在元數據管理方面處於領先地位，但是對於 IT 人員來說，建立和保持新的數據目錄一直是一項艱巨的任務。

數據倉庫團隊經常花費大量時間談論、擔心元數據，並為元數據感到內疚。由於大多數開發人員天生厭惡文檔的開發和有序歸檔，因此儘管每個人都承認元數據很重要，但元數據通常會從項目計劃中刪除。”

– 拉爾夫·金博爾，2002

數據目錄2.0：由數據管理員提供動力的數據庫存

時間：2008-2020

產品：collibra，Alation

隨着數據變得越來越主流並擴展到 IT 團隊之外，數據管理的想法開始生根發芽。這指的是一組專門負責管理組織數據的人員。他們將處理元數據、維護治理實踐、手動記錄數據等。

與此同時，元數據的想法發生了變化。隨着公司開始建立大規模的 Hadoop 實施，他們意識到簡單的 IT 數據清單已經不夠了。相反，新的數據目錄需要將數據清單與新的業務環境相融合。

就像這個時代超級複雜的 Hadoop 系統一樣，Data Catalog 2.0 很難設置和維護。它們涉及嚴格的數據治理委員會、正式的數據管理員、複雜的技術設置和冗長的實施周期。總而言之，這個過程可能需要長達 18 個月的時間。

這個時代的工具基本上是建立在整體架構上並部署在本地的。每個數據系統都有自己的安裝程序，公司無法通過推送簡單的雲更新來推出軟件更改。

技術債務不斷增長，元數據管理開始穩步落後於其他現代數據棧

元數據中範式的轉變

儘管其他數據基礎架構堆棧在過去幾年中得到了發展，而且 Fivetran 和 Snowflake 等工具讓用戶可以在不到 30 分鐘的時間內建立一個數據倉庫，但數據目錄卻跟不上。即使嘗試使用 Data Catalog 2.0 時代的元數據工具也需要花費大量的工程時間進行設置，更不用說至少與銷售代表進行 5 次通話以獲得演示

由於缺乏可行的替代方案，現代數據堆棧的最早採用者和大多數大型科技公司都訴諸於構建自己的內部解決方案。一些著名的例子包括 Airbnb 的 Dataportal、Facebook 的 Nemo、LinkedIn 的 DataHub、Lyft 的 Amundsen、Netflix 的 Metacat 和 Uber 的 Databook。

然而，並不是所有的公司都有這樣的工程資源，而且構建幾十個類似的元數據工具並不是特別有效。

數據目錄3.0：面向不同數據用戶的協作工作區

今天，我們正處於元數據管理的轉折點——從緩慢的內部部署數據目錄 2.0 轉變為新時代數據目錄 3.0 的開始。就像從 1.0 到 2.0 的跳躍一樣，這將是我們對元數據的看法的根本轉變

Data Catalog 3.0 的外觀和感覺與 Data Catalog 2.0 代的前輩不同。相反，數據目錄 3.0 將建立在嵌入式協作的前提下，這是當今現代工作場所的關鍵，借鑒了 Github、Figma、Slack、Notion、Superhuman 和其他當今司空見慣的現代工具的原則

數據目錄3.0的4個特徵

1.數據資產》表格

Data Catalog 2.0 生成的前提是“表格”是唯一需要管理的資產。但現在完全不一樣了。

如今，BI 儀錶板、代碼片段、SQL 查詢、模型、功能和 Jupyter 筆記本都是數據資產

3.0代元數據管理將需要足夠靈活，以便智能地存儲和將所有這些不同類型的數據資產鏈接在一個地方。

2.端到端數據可見性，而不是零碎碎的解決方案

數據目錄 2.0 時代的工具在改進數據發現方面取得了重大進展。然而，他們並沒有為組織提供數據的“單一事實來源”。有關數據資產的信息通常分佈在不同的地方——數據沿襲工具、數據質量工具、數據準備工具等等。數據目錄 3.0 將幫助團隊最終實現聖杯，即組織中每個數據資產的單一事實來源。

3.元數據為“大數據”的世界而構建

我們正在快速接近元數據本身就是大數據的世界。能夠處理和理解元數據將有助於團隊更好地理解和信任他們的數據。

這就是為什麼新的數據目錄3.0應該不僅僅是一個元數據存儲的原因。

它應該從根本上利用元數據作為一種數據形式，可以以與所有其他類型的數據相同的方式進行搜索、分析和維護

今天，雲的可擴展性使這成為可能，這是前所未有的。例如，查詢日誌只是當今可用的一種元數據。通過解析 Snowflake 中查詢日誌中的 SQL 代碼，可以自動創建列級沿襲，為每個數據資產分配流行度分數，甚至可以推斷每個資產的潛在所有者和專家。

4. 嵌入式協作已經成熟

Airbnb 在分享他們在推動採用內部數據門戶方面的經驗時說了一些深刻的話：“設計數據工具的界面和用戶體驗不應該是事後的想法。”

由於數據團隊的基本多樣性，需要設計數據工具以與團隊的日常工作流程無縫集成。

這就是嵌入式協作理念真正活躍的地方。嵌入式協作是指在您所在的位置進行工作，摩擦最少。

如果可以在獲得鏈接時請求訪問數據資產，就像使用 Google Docs 一樣，並且所有者可以在 Slack 上獲得請求並立即批准或拒絕它，該怎麼辦？或者，當您檢查數據資產並需要報告問題時，您可以立即觸發與工程團隊的 JIRA 工作流程完美集成的支持請求，該怎麼辦？

嵌入式協作可以統一數十個這樣的微型工作流程，這些工作流程會浪費時間、造成挫折並導致數據團隊的工具疲勞，反而讓這些任務變得有趣！

數據保護與連接元數據

為什麼保護元數據如此重要？

連接元數據是您在線進行操作時生成的數據，例如訪問網站、使用應用程序或發送消息。此元數據記錄信息，例如誰發送了數據（以 IP 地址的形式）、他們將數據發送到何處（另一個 IP）、何時以及發送了多少數據。簡而言之，它是關於數據的數據。

就其本身而言，這似乎並不多，但每次在線互動都會生成數十個元數據，幾乎都是公開的或易於查找的。如果有人收集了足夠多的元數據，他們很快就會清楚地了解你的在線活動，並了解你的線下生活。即使連接是端到端加密的，這也是可能的。

為什麼存在連接元數據？

因此，如果存在這樣的問題，為什麼不停止創建所有這些元數據，或者至少將其設為私有？不幸的是，事情並沒有那麼簡單：公共元數據對於互聯網目前的運作方式至關重要，這是一個沒有人能夠想象互聯網會發展到多大的時代的遺物，或者惡意行為者可能會如何濫用它。

基本上，可以把它想象成郵寄一封信。內容可以密封在信封中，但要到達目的地，信封需要清楚地註明地址。任何人都可以讀取此地址信息。如果他們願意，他們可以記下信封的去向、信封有多大以及何時寄出。隨着時間的推移，他們可以建立這些信息的數據庫並開始尋找模式。所有這些都無需打開信封。

如果我可以看到您在哪些商店購物、您正在使用哪些應用程序以及您向誰發送消息，我實際上不需要知道您的消息內容或您購買的完整詳細信息來推斷很多關於你的信息。

但是誰真正看到了這個元數據？每次上網時，數十家不同的公司和服務都會看到並可能記錄此元數據。有互聯網服務提供商 (ISP)、電信公司、使互聯網正常工作的 DNS 服務器和內容交付網絡 (CDN)，例如 Cloudflare，它們實際上為大部分 Web 內容提供服務。大多數情況下，這些服務都在未經您同意的情況下收集和存儲有關您的信息。

現代網絡服務相互關聯的方式意味着這個列表只會增加。例如，如果訪問一個嵌入了 YouTube 視頻的網站，那麼即使不點擊視頻，Google 也會收到訪問通知。這些信息可以通過IP 地址輕鬆鏈接到用戶的姓名，谷歌通過用戶的谷歌帳戶知道用戶的姓名，並添加到谷歌維護的關於用戶的詳細檔案中。不僅僅是谷歌。同樣的事情也發生在 Facebook，或者像 Medium 這樣的博客託管網站，或者即時消息平台。這一切都不需要 cookie 或任何額外的代碼，更改您的隱私設置也不會阻止它。這就是當今互聯網的運作方式。

那時我們甚至還沒有遇到黑客、政府過度干預等問題，以及如果用戶是在線企業，如何安全地處理和保護元數據的巨大問題，現在監管機構已經開始注意到這一點。但這些是未來劇集的主題。

公共連接元數據在 Internet 的工作方式中根深蒂固，因此沒有簡單的解決方案。解決它的唯一方法是採用全新的數據傳輸方法。

目前，區塊鏈項目開始關注這一領域。即使得用戶、公司和設備在完全隱私的情況下，進行在線交換信息。通信和交易的人可以確保沒有人能夠知道正在共享哪些數據、誰正在發送或接收數據，甚至有多少數據被發送。

最重要的是，具備去中心化的、完全透明且無需信任的特點，意味着永遠不必依賴第三方，也永遠不會被鎖定在服務中或不得不放棄對數據的控制。

DAOrayaki DAO研究獎金池：

資助地址: 0xCd7da526f5C943126fa9E6f63b7774fA89E88d71

投票進展：DAO Committee 3/7 通過

賞金總量：120 USDC

研究種類：DAO, Metadata, Data Stacks, Data Catalog 3.0

原文作者: Prukalpa

貢獻者： Dewei, DAOctor @DAOrayaki

原文: Data Catalog 3.0: Modern Metadata for the Modern Data Stack