數據塊 Apache Spark 的發明者和維護者, 為其統一分析平台引入了多項創新 在其 2021 年數據 + AI 峰會用戶大會上,包括 重點介紹了一個名為“Delta Sharing”的新開源項目的啟動 提供了 用於安全數據共享的開放協議 無論數據駐留在哪個平台上,都可以實時在組織之間進行。
達美共享 包含在 Delta Lake 項目中,該公司於 2019 年底發布開源的表存儲層。 該平台已經獲得了廣泛的數據提供商的支持,包括納斯達克、亞馬遜網絡服務、微軟、谷歌和 Tableau Software。
隨著公司尋求與客戶、供應商和合作夥伴安全地交換數據,數據共享在現代經濟中變得至關重要。 例如,零售商可能希望實時發布其供應商的銷售數據,或者供應商可能希望實時共享庫存。 但直到現在,數據交換仍然非常有限,因為交換解決方案與單一供應商綁定。 這給自然運行不同平台的數據提供者和消費者造成了摩擦。
今天,我們推出了一個新的開源項目,簡化了組織之間的共享:Delta Sharing,一種用於大型數據集安全實時交換的開放協議,首次實現了產品之間數據的安全交換。 我們正在與來自世界領先的軟件和數據提供商的合作夥伴一起開發 Delta Sharing。
數據塊 表示希望解決流程效率低下的問題 經常需要的手冊 用於組織與客戶、合作夥伴和供應商交換數據. 從歷史上看,數據共享產品一直綁定到單個供應商或商業產品,限制了使用不同平台的組織之間的協作。
Databricks 聯合創始人兼現場工程高級副總裁 Arsalan Tavakoli(如圖)說:“公司與他人共享的主要方式是經歷繁瑣的過程或使用每個人都必須使用的僵化的現有系統。”
匯集多個數據源也是一件苦差事. “你不能只讓每個人都可以訪問,”他說。 “您需要訪問控制、審計和版本控制。 今天沒有辦法做到這一點。
Delta 共享限制供應商依賴 該公司表示,它支持比以前更廣泛、更多樣化的用例集。 Unity Catalog 可用於 SQL、可視化分析工具以及 Python 和 R 等編程語言。Delta 共享還使組織能夠以 Apache Parquet 和 Delta Lake 格式實時大規模共享現有數據集,而無需需要副本。
Delta Sharing 是 Databricks 推出的第五個主要開源項目,繼Apache Spark、Delta Lake、用於機器學習的MLflow,以及在Spark上實現pandas DataFrame應用程序接口的Koalas之後。 該項目正在捐贈給 Linux 基金會。
還 Databricks 還突出顯示了«統一目錄« 標準化的數據目錄以及什麼是 與“Delta共享”兼容。 Unity Catalog 有一個新的界面,可以方便地發現和管理公司的所有數據庫,可以完整查看雲端數據和現有目錄,當然還有 Databricks 的 Lakehouse 平台。
統一目錄 提供基於 ANSI SQL 的單一安全模型, 簡化部署和標準化雲治理。 該工具還 可以集成到現有的數據目錄中 Alation、Collibra、Privacera 和 Immuta,以便各自的客戶可以在現有的基礎上建立一個集中的、面向未來的治理模型,而無需高昂的遷移成本。
終於 如果您有興趣了解更多信息,您可以檢查 以下鏈接中提供了詳細信息。