ایجاد و ادغام خط لوله داده با استفاده از Amazon S3 و Snowflake Data Warehouse. (با استفاده از SnowSQL).

Summarize this content to 400 words in Persian Lang
خط لوله داده به طور گسترده در زمینه مهندسی داده و تجزیه و تحلیل برای واکشی داده ها از منابع خارجی به عنوان مثال AWS Redshift، S3 (سرویس ذخیره سازی ساده)، GCP (پلتفرم ابری گوگل)، Oracle، Azure و بسیاری دیگر از فناوری های مورد استفاده در صنعت استفاده می شود.
خط لوله داده – طبق گفته Snowflake به انتقال داده ها از یک مکان به مقصد (مانند یک انبار داده یا سرویس ذخیره سازی بزرگ) و در عین حال بهینه سازی و تبدیل داده ها به طور همزمان مربوط می شود. در نتیجه، داده ها به حالتی می رسند که می توانند تجزیه و تحلیل شوند و برای توسعه بینش تجاری مورد استفاده قرار گیرند.
هدف این مقاله بررسی نحوه ادغام AWS S3 با Snowflake است که هنگام کار و کار با منابع داده بزرگ راحت است.
الزامات:
آشنایی با SQL برای کار در Snowflake.
حساب Snowflake و AWS
فایل داده ترجیحاً در CSV (مقدار جدا شده با کاما) میتواند تا 160 گیگابایت حجم داشته باشد. فراتر از آن AWS از توسعهدهنده Cloud میخواهد از ابزارهای دیگری استفاده کند – این فراتر از محدوده این مقاله است.
مرحله 1یک حساب AWS را به عنوان یک کاربر ریشه تنظیم کنید.
گام 2پس از ورود موفقیت آمیز به حساب کاربری خود به خدمات همانطور که نشان داده شده است. برای کاربران جدید پیدا کنید ذخیره سازی سپس با اسکرول کردن به پایین S3 را انتخاب کنید.
مرحله 3پس از انتخاب S3 ما انتظار داریم صفحه نمایش به صورت زیر باشد – طراحی ممکن است بعدا تغییر کند.
کلیک سطل ایجاد کنید سپس به آن یک نام بدهید – در مورد ما mybootcampbucket:
کلیک سطل ایجاد کنید برای اتمام فرآیند
برای آپلود فایل، سطل جدید ایجاد شده (هایلایت شده) را انتخاب کنید.
اکنون فایل را مطابق تصویر زیر آپلود کنید.
مرحله 4پس از آپلود فایل/مجموعه داده. سیاست باید تنظیم شود. این خطمشی اجازه اشتراکگذاری با ادغام خارجی را در صورت مرتبط بودن با هویت و انطباق با حساب AWS مربوطه تسهیل میکند.برای تنظیم خط مشی کلیک کنید خدمات سپس به امنیت، هویت و انطباق. زیر را ببینید:
انتخاب کنید من هستم (Identity Access Management) سپس باز کنید سیاست های.
پس از کلیک روی 'ایجاد خط مشی'، نام را به خط مشی ایجاد شده اختصاص دهید. مورد ما این است Bootcamp2023.
در زیر خط مشی ها، کلیک کنید سیاست JSON، این به این دلیل است که خط مشی ها در علامت گذاری شی جاوا اسکریپت (JSON) نوشته شده اند که یک نحو نمایش داده های زوج کلید – ارزش است.
پس از تنظیم خط مشی، در مرحله بعد آن را ایجاد می کنیم نقش.
به نقش خود یک نام بدهید، در این سناریو – نقش ما نامگذاری شده است Bootcamp_2023.
مجوز را تنظیم کنید.
من برجسته به توجه داشته باشید که ما با این حساب به خصوص.سپس خط مشی را برای تنظیم نقش انتخاب کنید.
کار را با نقش آفرینی به پایان برسانید.
حالا کپی کنید ARN (نام منابع آمازون) که به شناسایی منابع به صورت منحصر به فرد کمک می کند.
مرحله 5 – راه اندازی/ایجاد یک حساب Snowflake.برای ایجاد یک حساب کاربری Snowflake به Snowflake بروید
پس از ایجاد یک حساب کاربری، باید خود را ایجاد کنیم انبار – همانطور که در زیر نشان داده شده است.
نمایش مجموعه داده خط لوله بارگیری شده از AWS S3.
این همه برای این مقاله است.
خط لوله داده به طور گسترده در زمینه مهندسی داده و تجزیه و تحلیل برای واکشی داده ها از منابع خارجی به عنوان مثال AWS Redshift، S3 (سرویس ذخیره سازی ساده)، GCP (پلتفرم ابری گوگل)، Oracle، Azure و بسیاری دیگر از فناوری های مورد استفاده در صنعت استفاده می شود.
خط لوله داده – طبق گفته Snowflake به انتقال داده ها از یک مکان به مقصد (مانند یک انبار داده یا سرویس ذخیره سازی بزرگ) و در عین حال بهینه سازی و تبدیل داده ها به طور همزمان مربوط می شود. در نتیجه، داده ها به حالتی می رسند که می توانند تجزیه و تحلیل شوند و برای توسعه بینش تجاری مورد استفاده قرار گیرند.
هدف این مقاله بررسی نحوه ادغام AWS S3 با Snowflake است که هنگام کار و کار با منابع داده بزرگ راحت است.
الزامات:
- آشنایی با SQL برای کار در Snowflake.
- حساب Snowflake و AWS
- فایل داده ترجیحاً در CSV (مقدار جدا شده با کاما) میتواند تا 160 گیگابایت حجم داشته باشد. فراتر از آن AWS از توسعهدهنده Cloud میخواهد از ابزارهای دیگری استفاده کند – این فراتر از محدوده این مقاله است.
مرحله 1
یک حساب AWS را به عنوان یک کاربر ریشه تنظیم کنید.
گام 2
پس از ورود موفقیت آمیز به حساب کاربری خود به خدمات همانطور که نشان داده شده است. برای کاربران جدید پیدا کنید ذخیره سازی سپس با اسکرول کردن به پایین S3 را انتخاب کنید.
مرحله 3
پس از انتخاب S3 ما انتظار داریم صفحه نمایش به صورت زیر باشد – طراحی ممکن است بعدا تغییر کند.
کلیک سطل ایجاد کنید سپس به آن یک نام بدهید – در مورد ما mybootcampbucket:
کلیک سطل ایجاد کنید برای اتمام فرآیند
برای آپلود فایل، سطل جدید ایجاد شده (هایلایت شده) را انتخاب کنید.
اکنون فایل را مطابق تصویر زیر آپلود کنید.
مرحله 4
پس از آپلود فایل/مجموعه داده. سیاست باید تنظیم شود. این خطمشی اجازه اشتراکگذاری با ادغام خارجی را در صورت مرتبط بودن با هویت و انطباق با حساب AWS مربوطه تسهیل میکند.
برای تنظیم خط مشی کلیک کنید خدمات سپس به امنیت، هویت و انطباق. زیر را ببینید:
انتخاب کنید من هستم (Identity Access Management) سپس باز کنید سیاست های.
پس از کلیک روی 'ایجاد خط مشی'، نام را به خط مشی ایجاد شده اختصاص دهید. مورد ما این است Bootcamp2023.
در زیر خط مشی ها، کلیک کنید سیاست JSON، این به این دلیل است که خط مشی ها در علامت گذاری شی جاوا اسکریپت (JSON) نوشته شده اند که یک نحو نمایش داده های زوج کلید – ارزش است.
پس از تنظیم خط مشی، در مرحله بعد آن را ایجاد می کنیم نقش.
به نقش خود یک نام بدهید، در این سناریو – نقش ما نامگذاری شده است Bootcamp_2023.
مجوز را تنظیم کنید.
من برجسته به توجه داشته باشید که ما با این حساب به خصوص.
سپس خط مشی را برای تنظیم نقش انتخاب کنید.
کار را با نقش آفرینی به پایان برسانید.
حالا کپی کنید ARN (نام منابع آمازون) که به شناسایی منابع به صورت منحصر به فرد کمک می کند.
مرحله 5 – راه اندازی/ایجاد یک حساب Snowflake.
برای ایجاد یک حساب کاربری Snowflake به Snowflake بروید
پس از ایجاد یک حساب کاربری، باید خود را ایجاد کنیم انبار – همانطور که در زیر نشان داده شده است.
نمایش مجموعه داده خط لوله بارگیری شده از AWS S3.
این همه برای این مقاله است.