برنامه نویسی

تسلط بر داده های بزرگ با GCP: سفر Capstone من در تجزیه و تحلیل داده های ابر

مقدمه

من به عنوان یک علاقه مندان به داده ها ، من همیشه مجذوب قدرت سیستم عامل های ابری برای تبدیل داده های خام به بینش های عملی شده ام. به تازگی ، من یک پروژه Capstone را با استفاده از Google Cloud Platform (GCP) تکمیل کردم که مهارت های خود را در آزمایش قرار داده است. وظیفه من؟ به یک راه اندازی fintech داستانی ، Thelook fintech ، اهرم BigQuery و Looker کمک کنید تا سؤالات مهم تجاری در مورد عملکرد وام و رفتار وام گیرنده را برطرف کنید. در این وبلاگ ، شما را در سفر خود – از جمع آوری و پردازش داده ها گرفته تا ساخت داشبورد براق – طی می کنم و درسهایی را که در این راه آموخته ام به اشتراک می گذارم.

این که آیا شما یک تحلیلگر داده ، یک تازه وارد ابر هستید یا فقط در مورد BigQuery و Looker کنجکاو هستید ، این پست یک صندلی ردیف جلو را به یک پروژه داده در دنیای واقعی می دهد.


سناریو: چالش داده های راه اندازی Fintech

تصور کنید که شما یک تحلیلگر داده ابری هستید که توسط Thelook Fintech استخدام شده اید ، یک راه اندازی مرحله رشد ، وام های مربوط به صاحبان فروشگاه های آنلاین را متحول می کند. وزارت خزانه داری ، به رهبری Trevor ، برای نظارت بر جریان نقدی ، به کمک شما نیاز دارد ، درک می کند که چرا مشتریان وام می گیرند و توزیع وام را در مناطق پیگیری می کنند. بعداً ، آنها می خواهند یک داشبورد برای نگه داشتن زبانه ها در سلامت وام. ماموریت من واضح بود: از ابزارهای GCP برای جمع آوری ، پردازش و تجزیه و تحلیل داده ها استفاده کنید ، سپس نتایج را تجسم کنید.

این پروژه در دو بخش آشکار شد:

  1. گردش کار BigQuery: جمع آوری ، پردازش و ذخیره داده های وام برای پاسخ به سه سوال کلیدی.
  2. داشبورد نگاه کننده: ساختمان تجسم برای نظارت بر معیارهای بهداشتی وام.

در اینجا نحوه برخورد با آن آورده شده است.


قسمت 1: جمع آوری ، پردازش و ذخیره داده ها در BigQuery

اولین مرحله از این پروژه همه چیز در مورد دستیابی به BigQuery ، انبار داده بدون سرور GCP بود. هدف من پاسخ دادن به سه سوال تجاری بود:

  • چگونه می توانیم جریان نقدی را کنترل کنیم تا اطمینان حاصل شود که بودجه وام از پرداخت های دریافتی تجاوز نمی کند؟
  • مهمترین دلایلی که مشتریان وام می گیرند چیست؟
  • وام گیرندگان از نظر جغرافیایی در کجا قرار دارند؟

مرحله 1: تنظیم محیط BigQuery

من با ایجاد یک مجموعه داده BigQuery برای تهیه اطلاعات وام شروع کردم. این شامل تنظیم جداول و اطمینان از طرحواره با نیازهای FinTech است – به ستون های وام برای مبلغ وام ، اهداف ، تاریخ ها و وام گیرنده فکر کنید.

شرح تصویر

مرحله 2: کاوش در داده های وام

با بارگیری داده ها ، من نمایش داده های اکتشافی SQL را اجرا کردم تا احساس آن را بدست آورم.

شرح تصویر

برای جریان نقدی ، من پول را در (بازپرداخت وام) در مقابل پول خارج شده (صدور وام) محاسبه کردم. برای اهداف وام ، من در داده های برنامه به یک قسمت تو در تو در تو در تو لانه کشیدم تا دلایلی مانند “خرید موجودی” یا “گسترش تجارت” را استخراج کنم.

شرح تصویر

شرح تصویر

برای مکان ها ، من وام های دولتی را جمع کردم.

مرحله 3: وارد کردن داده های اضافی

Trevor به یک شکست جغرافیایی عمیق تر نیاز داشت ، بنابراین من یک پرونده CSV را با طبقه بندی دولتی به BigQuery وارد کردم. من این را با استفاده از a به یک جدول استاندارد تبدیل کردم CREATE TABLE AS SELECT بیانیه – یک تاکتیک رضایت بخش ساده.

شرح تصویر

مرحله 4: پیوستن به جداول

بعد ، من با استفاده از یک جدول طبقه بندی دولت به داده های وام پیوستم JOIN بند در SQL. این مجموعه داده را غنی کرد و به من اجازه می دهد وام های نقشه را به مناطق و روند جغرافیایی نقاط برساند.

شرح تصویر

مرحله 5: تمیز کردن با deduplication

داده های هدف وام دارای نسخه های تکراری بودند ، بنابراین من از DISTINCT پرس و جو برای تمیز کردن آن. این گزارش دقیق را در مورد اینکه چرا وام گیرندگان به دنبال بودجه هستند ، تضمین می کند.

مرحله ششم: مبلغ وام جمع آوری شده به سال

سرانجام ، من یک میز با یک ایجاد کردم GROUP BY پرس و جو برای جمع آوری مبلغ وام با تاریخ صدور و سال. این امر به Trevor دید روشنی از روند وام دهی در طول زمان داد – برای نظارت بر جریان نقدی.

شرح تصویر

در پایان ، من یک مجموعه داده صیقلی آماده برای تجزیه و تحلیل ، که به طور کارآمد در BigQuery ذخیره شده بود.


قسمت 2: تجسم بینش با شرکت Looker

Trevor با آماده سازی داده ها ، چالش جدیدی را به راه من انداخت: داشبورد را در Looker ایجاد کنید تا سلامت وام را ردیابی کنید. او می خواست به چهار سوال پاسخ دهد:

  • مبلغ کل وام برجسته چقدر است؟
  • چه درصد وام ها در هر وضعیت قرار می گیرند (به عنوان مثال ، فعلی ، دیر ، پیش فرض)؟
  • کدام کشورها دارای برجسته ترین وام هستند؟
  • کدام مشتریان خانه های خود را به طور کامل دارند و وام های فعلی دارند؟

کار 1: شروع با Looker

من با اتصال Looker به مجموعه داده های BigQuery ، کارها را شروع کردم. رابط بصری Looker ، تعریف یک مدل داده ای را که در جداول من نقشه برداری شده است ، آسان کرده است.

کار 2: کل مبلغ وام برجسته

برای اولین تجسم ، من یک کارت تک ارزش ساختم که مبلغ تمام مانده های برجسته را نشان می دهد. سریع SUM اندازه گیری در LookML ، جفت شده با یک فیلتر برای وام های پرداخت نشده ، این ترفند را انجام داد.

شرح تصویر

کار 3: تجزیه وضعیت وام

در مرحله بعد ، من یک نمودار پای ایجاد کردم تا درصد وام ها را بر اساس وضعیت نشان دهم. من داده ها را براساس دسته بندی هایی مانند محاسبه درصد Looker برای نشان دادن توزیع گروه بندی کردم. این یک تغییر دهنده بازی برای کشف مناطق خطر بود.

شرح تصویر

کار 4: ایالت های برتر با وام های برجسته

من یک نمودار نوار را با توجه به تعداد وام ، 10 ایالت برتر را برجسته کردم. بوها COUNT اندازه گیری ، طبقه بندی شده به ترتیب نزولی ، و حد 10 به Trevor نمای روشنی از غلظت جغرافیایی داد.

شرح تصویر

کار 5: صاحبان خانه با وام های فعلی

برای تجسم نهایی ، من یک جدول را در لیست مشتریانی قرار دادم که خانه های خود را به طور کامل صاحب خانه می کنند و وام های “فعلی” دارند. من بر اساس وضعیت مالکیت خانه و وضعیت وام فیلتر کردم ، سپس بر اساس درآمد طبقه بندی کردم تا در مورد افراد بالا به کانون توجه کنند.

شرح تصویر

کار 6: صیقل دادن داشبورد

برای تعاملی داشبورد ، من فیلتر متقابل را فعال کردم-با کلیک بر روی یک حالت در نمودار نوار ، تصاویر دیگر را فیلتر می کند. من همچنین برای تازه نگه داشتن داده ها نرخ تازه سازی روزانه را تعیین کردم. نتیجه؟ یک ابزار براق و کاربر پسند تیم Trevor می تواند به آن اعتماد کند.

شرح تصویر


داشبورد نهایی

در اینجا داشبورد به نظر می رسد:

  • کارت: کل مبلغ برجسته (3.08B دلار).
  • نمودار پای: درصد وضعیت وام.
  • نمودار نوار: 10 کشور برتر با تعداد وام.
  • جدول: مشتریان خانه دار با وام های فعلی.

شرح تصویر

این یک لحظه افتخارآمیز بود که همه اینها را با هم جمع می کردند – شهادت قدرت ترکیب داده های BigQuery با قدرت تجسم Looker.


پایان

سفر من با داده های Thelook Fintech یک دوره سقوط در استفاده از GCP برای مقابله با چالش های دنیای واقعی بود. BigQuery رسیدگی به مجموعه داده های بزرگ را آسان کرد ، در حالی که Looker این بینش ها را به زندگی آورد. اگر به دنبال تجزیه و تحلیل داده های ابر هستید ، من نمی توانم این نوع پروژه دستی را به اندازه کافی توصیه کنم-این بهترین راه برای ایجاد مهارت و اعتماد به نفس است.

من از کشف ویژگی های پیشرفته GCP مانند DataFlow یا سیستم عامل AI هیجان زده ام. در حال حاضر ، من دوست دارم افکار شما را بشنوم – آیا شما با BigQuery یا Looker کار کرده اید؟ نظر زیر را رها کنید!


نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا