DeltaSharing a Databricks – DEV Community

من به شما می گویم که در اسپرینت قبلی، در پروژه ای که روی آن کار می کنیم، یک نیاز جدید داشتیم، می خواستیم جدولی از کاتالوگ Databricks را در معرض یک سرویس خارجی قرار دهیم.
به طور معمول این فرآیند از Databricks به Databricks انجام می شد، اما این نیاز برای پروژه چیز جدیدی بود.
راه حل، اشتراک گذاری دلتا، قبل از اینکه به شما نشان دهیم چگونه حل شد، اجازه دهید کمی در مورد این پروتکل صحبت کنیم.
در دنیای امروزی مبتنی بر داده، به اشتراک گذاری امن و یکپارچه داده بین سازمان ها و پلتفرم ها بسیار مهم است. به اشتراک گذاری دلتا، یک پروتکل باز توسعه یافته توسط Databricks، این نیاز را با امکان اشتراک گذاری امن و کارآمد داده برطرف می کند. این پروتکل به ارائه دهندگان داده اجازه می دهد تا داده های زنده را مستقیماً با مصرف کنندگان خود بدون نیاز به خطوط لوله داده پیچیده یا تکثیر داده به اشتراک بگذارند.
به اشتراک گذاری دلتا از قدرت دریاچه دلتا استفاده می کند و اطمینان می دهد که داده های مشترک همیشه به روز و سازگار هستند. از طیف گسترده ای از فرمت های داده پشتیبانی می کند و به طور یکپارچه با ابزارها و پلتفرم های مختلف داده ادغام می شود و آن را به یک راه حل همه کاره برای همکاری داده های مدرن تبدیل می کند.
در این پست، ویژگیهای کلیدی اشتراکگذاری دلتا، مزایای آن و نحوه شروع اجرای آن در محیط Databricks را بررسی خواهیم کرد. چه شما یک ارائه دهنده داده باشید که به دنبال به اشتراک گذاری مجموعه داده های خود هستید یا یک مصرف کننده داده که به دنبال دسترسی آسان به داده های مشترک هستید، Delta Sharing یک راه حل قوی و مقیاس پذیر برای رفع نیازهای شما ارائه می دهد.
حالا برای چی اومدیم
در ابتدا باید یک Share ایجاد کنیم:
CREATE SHARE IF NOT EXISTS recipiente_share;
پس از ایجاد، می توانیم تمام مواردی که با این کد ایجاد شده اند را مشاهده کنیم:
SHOW SHARES
سپس باید یک گیرنده ایجاد کنید:
CREATE RECIPIENT IF NOT EXISTS BigQueryDataConsumer
COMMENT "delta Sharing With BigQuery"
ما می توانیم تمام گیرندگان ایجاد شده را ببینیم:
SHOW RECIPIENTS;
لازم است به این گیرنده مجوزهای درخواست داده شود:
GRANT SELECT
ON SHARE recipiente_share
TO RECIPIENT BigQueryDataConsumer
هنگامی که گیرنده ایجاد شد و با مجوزهای لازم، می توانیم جزئیات آن را مشاهده کنیم:
DESCRIBE RECIPIENT bigquerydataconsumer
در آنجا اطلاعات دقیقی را ثبت می کند، اما برای تمرین مهم ترین “activation_link” است:
این url فایلی با نشانه و نقطه پایانی برای رسیدن به جدول به ما می دهد:
این اطلاعات همان چیزی است که ما قصد داریم برای دستیابی به اتصال از سرویس های مختلف استفاده کنیم.
گراسیاس!!!