یادداشت های مطالعه دوره اصول DLT: درس 3 و 4 – صفحه بندی ، احراز هویت ، پیکربندی DLT ، منابع و مقصد

مقدمه ای بر روی صفحه بندی
- صفحه بندی تکنیکی است که برای بازیابی داده ها در صفحات استفاده می شود ، به ویژه هنگامی که یک نقطه پایانی میزان داده هایی را که می توان به یکباره بدست آورد محدود می کند.
- GitHub API داده ها را در صفحات باز می گرداند ، و صفحه بندی به ما امکان می دهد تا تمام داده ها را بازیابی کنیم.
صفحه بندی API Github
- API GitHub فراهم می کند
per_page
وتpage
پارامترهای پرس و جو برای کنترل صفحه بندی. - در
Link
عنوان در پاسخ شامل URL هایی برای واکشی صفحات اضافی داده ها است.
اجرای صفحه بندی با Restclient DLT
- بازگرداندن DLT می تواند هنگام کار با API های REST مانند GitHub ، یکپارچه سازی را انجام دهد.
- در
RESTClient
بخشی از یاران DLT است که با مدیریت کارهای تکراری ، تعامل با API های REST را آسانتر می کند.
احراز هویت با API GitHub
- تأیید اعتبار برای جلوگیری از خطاهای محدودیت نرخ هنگام واکشی داده های API GitHub لازم است.
- برای تأیید اعتبار ، یک متغیر محیطی را برای نشانه دسترسی خود ایجاد کنید یا از پیکربندی اسرار DLT استفاده کنید.
پیکربندی و اسرار DLT
- تنظیمات تنظیمات غیر حساس هستند که رفتار یک خط لوله داده را تعریف می کنند.
- رازها داده های حساس مانند رمزهای عبور ، کلیدهای API و کلیدهای خصوصی هستند که باید ایمن باشند.
- DLT به طور خودکار تنظیمات و اسرار پیکربندی را بر اساس کنوانسیون های نامگذاری انعطاف پذیر استخراج می کند.
تمرین 1: صفحه بندی با Resplient
- برای واکشی داده های صفحه بندی شده از API GitHub از ReseClient DLT استفاده کنید.
- لیست کامل صفحات موجود را می توان در مستندات رسمی DLT یافت.
تمرین 2: خط لوله را با dlt.secrets.value اجرا کنید
- از
sql_client
برای پرس و جوstargazers
جدول و پیدا کردن کاربر با شناسه17202864
بشر - از متغیرهای محیط برای تنظیم
ACCESS_TOKEN
متغیر
غذای اصلی
- صفحه بندی هنگام کار با API که داده ها را در صفحات باز می گرداند ، ضروری است.
- بازگرداندن DLT می تواند یکپارچه سازی را انجام دهد و کارهای تکراری را مدیریت کند.
- تأیید اعتبار برای جلوگیری از خطاهای محدودیت نرخ هنگام واکشی داده های API GitHub لازم است.
- پیکربندی و اسرار DLT برای تنظیم ایمن خطوط لوله داده ضروری است.
خواندن بیشتر
منابع پیش ساخته
نمای کلی
منابع از پیش ساخته ساده ترین راه برای شروع کار با ساخت پشته شما هستند. آنها کاملاً قابل تنظیم هستند و مجموعه ای از تنظیمات از پیش تعریف شده را ارائه می دهند.
انواع منابع از پیش ساخته شده
-
منابع تأیید شده موجود: از یک منبع تأیید شده موجود با اجرای
dlt init
فرمان - بانکهای اطلاعاتی SQL: بارگیری داده ها از پایگاه داده های SQL (PostgreSQL ، MySQL ، SQLIGHT ، ORACLE ، IBM DB2 و غیره) را به یک مقصد.
- سیستم پرونده: بارگیری داده ها از سیستم فایل ، از جمله پرونده های CSV ، Parquet و JSONL.
- API استراحت: با استفاده از پیکربندی اعلامی ، داده ها را از API REST بارگیری کنید.
مراحل استفاده از منابع از پیش ساخته
-
DLT را نصب کنید: DLT را با استفاده از
dlt init
فرمان -
همه منابع تأیید شده را لیست کنید: از
dlt init
فرمان برای لیست کلیه منابع تأیید شده موجود و توضیحات کوتاه آنها. -
منبع را اولیه کنید: منبع را با استفاده از
dlt init
فرمان - اعتبار را اضافه کنید: با استفاده از متغیرهای محیط یا روشهای دیگر ، اعتبارنامه ها را اضافه کنید.
- خط لوله را اجرا کنید: خط لوله را برای بارگیری داده ها در مقصد اجرا کنید.
مقصد از پیش ساخته شده
نمای کلی
از مقصد از پیش ساخته شده برای بارگیری داده ها در یک مکان خاص استفاده می شود. آنها قابل تنظیم هستند و مجموعه ای از تنظیمات از پیش تعریف شده را ارائه می دهند.
انواع مقصد از پیش ساخته شده
- مقصد سیستم فایل: بارگیری داده ها در پرونده های ذخیره شده به صورت محلی یا در راه حل های ذخیره سازی ابری.
-
میزهای دلتا: جداول دلتا را با استفاده از
deltalake
کتابخانه -
میزهای کوه یخ: جداول کوه یخ را با استفاده از
pyiceberg
کتابخانه
مراحل استفاده از مقصد از پیش ساخته
- مقصد را انتخاب کنید: براساس نیاز خود یک مقصد را انتخاب کنید.
-
پارامتر مقصد را تغییر دهید: اصلاح کنید
destination
پارامتر در پیکربندی خط لوله شما. - خط لوله را اجرا کنید: خط لوله را برای بارگیری داده ها در مقصد اجرا کنید.
مثال استفاده از موارد
-
بارگیری داده ها از یک پایگاه داده SQL: از
sql_database
منبع برای بارگیری داده ها از یک پایگاه داده SQL به یک مقصد. -
بارگیری داده ها از API REST: از
rest_api
منبع برای بارگیری داده ها از API REST به یک مقصد. -
بارگیری داده ها از سیستم فایل: از
filesystem
منبع برای بارگیری داده ها از سیستم فایل به یک مقصد.
تمرین
-
منبع REST_API را اجرا کنید: اجرا
rest_api
منبع برای بارگیری داده ها از API REST به یک مقصد. -
منبع sql_database را اجرا کنید: اجرا
sql_database
منبع برای بارگیری داده ها از یک پایگاه داده SQL به یک مقصد. -
منبع فایل سیستم را اجرا کنید: اجرا
filesystem
منبع برای بارگیری داده ها از سیستم فایل به یک مقصد.
مراحل بعدی
- به درس بعدی بروید: برای کسب اطلاعات بیشتر در مورد منابع و مقصد های سفارشی ، به درس بعدی بروید.
- اسناد DLT را کاوش کنید: برای کسب اطلاعات بیشتر در مورد منابع و مقصد از پیش ساخته ، مستندات DLT را کاوش کنید.