برنامه نویسی

تجزیه و تحلیل داده ها با Redshift Serverless و Quicksight – قسمت 2

در بخش اول این وبلاگ، پیشنهاد Redshift Serverless را معرفی کرده‌ایم و یک گروه کاری و فضای نام پیکربندی شده با اشتراک‌گذاری داده را تنظیم کرده‌ایم تا امکان دسترسی به AWS Marketplace Data Exchange را فراهم کند. در بخش دوم این وبلاگ، ما بر روی دسترسی به داده های Amazon Quicksight برای ایجاد تجسم های تعاملی و بررسی برخی ویژگی های دیگر که ارائه می دهد تمرکز خواهیم کرد.

Amazon Quicksight یک سرویس هوش تجاری (BI) کاملاً مدیریت شده است که به کاربران امکان می دهد داشبوردها را منتشر کرده و بین اعضای تیم به اشتراک بگذارند. از آنجایی که این یک پیشنهاد بدون سرور است، بدون نگرانی در مورد مدیریت زیرساخت های زیربنایی، به ده ها هزار کاربر می رسد. این می تواند به طیف گسترده ای از منابع داده در فضای ابری (S3، RDS، Redshift، Athena) و on-prem متصل شود.

همچنین برخی از ویژگی‌های پیشرفته‌تر مانند ادغام بینش‌های یادگیری ماشین با داشبورد را در قالب پیش‌بینی، تشخیص ناهنجاری و جستجوی زبان طبیعی ارائه می‌کند. برخی از این موارد را در این وبلاگ بررسی خواهیم کرد.

راه اندازی اشتراک Quicksight

اگر این اولین باری است که از Quicksight استفاده می کنید، باید یک حساب کاربری ایجاد کنید. وارد حساب کاربری IAM خود شوید و سپس به سرویس Quicksight بروید. دستورالعمل‌های اینجا را دنبال کنید و گزینه‌های راه‌اندازی حساب سازمانی با روش احراز هویت به‌عنوان کاربران فدرال و نقش مدیریت‌شده توسط QuickSight را انتخاب کنید و به Redshift دسترسی بدهید. یک اشتراک آزمایشی رایگان به مدت 30 روز برای اشتراک استاندارد یا شرکتی دریافت خواهید کرد. اگر دوره آزمایشی رایگان شما منقضی شده است، می‌توانید برای یکی از پرداخت‌های ارزان‌تر اشتراک‌های Reader ثبت‌نام کنید که فقط برای یک جلسه فعال شارژ می‌شود و پس از تکمیل این آموزش می‌توان آن را متوقف کرد.

توضیحات تصویر

هنگامی که اشتراک را تنظیم کردید، باید بتوانید به عنوان یک کاربر IAM وارد Quicksight شوید و با انتخاب نماد کاربر در سمت راست بالای صفحه و انتخاب حساب خود، حساب خود را مدیریت کنید. Manage Quicksight. اکنون می توانید اشتراک فعال خود را بررسی کنید یا به عنوان کاربر سرپرست، در صورت نیاز کاربران را به حساب خود دعوت کنید و بر اساس آن مجوزها را مدیریت کنید.

Quicksight همچنین از SPICE برای اجرای محاسبات سریع درون حافظه روی داده ها برای تجزیه و تحلیل بصری استفاده می کند. برای اشتراک های Enterprise، داده ها به طور پیش فرض در حالت استراحت رمزگذاری می شوند. به‌طور پیش‌فرض، مجموعاً 11 گیگابایت ظرفیت SPICE در هر منطقه در هر حساب اشتراک دریافت می‌کنیم که می‌تواند بین کاربران Quicksight اضافه شده به حساب به اشتراک گذاشته شود. ما داده ها را از Redshift در SPICE برای این آموزش بارگیری خواهیم کرد و ظرفیت آن بیش از اندازه کافی خواهد بود.

توضیحات تصویر

اتصال به Redshift

  • در صفحه شروع آمازون QuickSight، Datasets را از گزینه‌های سمت چپ و در صفحه Datasets، گزینه New data set را در بالا سمت راست انتخاب کنید (تصویر زیر).

توضیحات تصویر

  • در پنجره جدید، نماد اتصال دستی Redshift را انتخاب کنید. یک پنجره جدید ظاهر می شود که باید اطلاعات اتصال را برای منبع داده پر کنید.
  • برای نام منبع داده، نامی برای منبع داده وارد کنید.
  • برای سرور پایگاه داده، باید نقطه پایانی خوشه را بازیابی کنید. هنگام کلیک بر روی گروه کاری کلاستر در داشبورد Redshift Serverless، می توانید مقدار نقطه پایانی را از قسمت Endpoint در قسمت اطلاعات عمومی دریافت کنید. آدرس سرور اولین قسمت نقطه پایانی قبل از کولون است که در زیر با رنگ زرد مشخص شده است.

توضیحات تصویر

  • پورت به عنوان درگاه پیش‌فرض برای redshift (5439) خواهد بود، مگر اینکه در تنظیمات به‌طور متفاوتی تنظیم شده باشد، که در این صورت از آدرس نقطه پایانی (تعداد بعد از کولون اول) تأیید کنید.
  • نام پایگاه داده (بعد از کولون دوم در نقطه پایانی) را وارد کنید. در مورد من، توسعه دهنده است.
  • برای نام کاربری و رمز عبور، نام کاربری و رمز عبوری را که در قسمت 1 این وبلاگ پیکربندی کرده‌اید، هنگام راه‌اندازی خوشه انتقال به سرخ وارد کنید.
  • را کلیک کنید Validate Connection. اگر موفقیت آمیز بود، باید یک تیک سبز رنگ را ببینید که می گوید معتبر است. اگر این کار انجام نشد، بررسی کنید که کارهای زیر را انجام داده اید:
    • بررسی کنید که گروه امنیتی متصل به خوشه Redshift به ترافیک ورودی از محدوده آدرس IP مرتبط با منطقه ای که Quicksight در آن راه اندازی شده است، اجازه دهد که در وبلاگ قبلی توضیح داده شد.
    • آیا فراموش کرده اید که VPC را که کلاستر Redshift در آن قرار دارد در دسترس عموم قرار دهید؟
    • بررسی کنید که از نام کاربری و/یا رمز عبور صحیح استفاده می کنید (این را می توان از داشبورد Redshift بازنشانی کرد).
  • با فرض اینکه همه چیز کار کرد، روی Create DataSource کلیک کنید.

توضیحات تصویر

  • طرح و مجموعه جداول برای اتصال به شما نمایش داده می شود. منظره worldwide_events_vw ایجاد شده در وبلاگ قبلی، باید قابل مشاهده باشد. این را انتخاب کنید و روی next کلیک کنید.

توضیحات تصویر

  • در پنجره بعدی، باید انتخاب کنیم که آیا می‌خواهیم مستقیماً مجموعه داده را از منبع پرس و جو کنیم یا از داده‌های جدول همانطور که هست استفاده کنیم و به SPICE وارد کنیم. روش دوم روشی است که توصیه می‌شود، زیرا عملکرد و تجزیه و تحلیل سریع‌تر را بهبود می‌بخشد، مشروط بر اینکه ظرفیت SPICE کافی داشته باشید. انتخاب کنید Import to SPICE گزینه
  • اگر نمی‌خواهید زمانی که بازخوانی ناموفق بود برای شما ایمیل ارسال شود، علامت کادر را بردارید. سپس انتخاب کنید Visualize.

توضیحات تصویر

تنظیمات پیش فرض را برای ایجاد یک برگه جدید بپذیرید و اکنون باید داشبورد ایجاد نمودارها به شما نمایش داده شود.

اطلاعات بینش

Quicksight تعدادی از انواع بصری را ارائه می دهد که می توان آنها را از پنجره انواع بصری با استفاده از نماد بصری نماینده انتخاب کرد. اسناد AWS در مورد ایجاد تصاویری با دید سریع مراحل اضافه کردن تصویر به داشبورد را طی می‌کنند. ابتدا یک نمودار خطی از انواع بصری ایجاد می کنیم تا فیلدهای caldate و totalprice را از لیست فیلدها رسم کنیم.

Quicksight به کاربران غیر فنی اجازه می دهد تا پیش بینی هایی را با استفاده از الگوریتم Random Cut Forest برای تجزیه و تحلیل داده های تاریخی و ایجاد پیش بینی برای یک دوره مشخص با فاصله پیش بینی سطح اطمینان مورد نیاز ایجاد کنند.

توضیحات تصویر

  • برای مدت پیش‌بینی، دوره‌های رو به جلو را 14 تنظیم می‌کنیم
  • فاصله پیش بینی را روی 90 قرار دهید.
  • فصلی را روی auto و سایر تنظیمات را به عنوان مقادیر پیش فرض بگذارید.

ما یک بازه اطمینان گسترده را دریافت می کنیم که نشان می دهد پیش بینی می تواند در هر جایی در آن محدوده باشد. مقدار کمتری از فاصله پیش‌بینی، باند باریک‌تری ایجاد می‌کند، اما اطمینان کمتری به پیش‌بینی می‌دهد.

توضیحات تصویر

همچنین می‌توانیم پیش‌بینی برای دوره‌ای از تاریخ ایجاد کنیم و آن را با داده‌های واقعی مقایسه کنیم. برای انجام این کار، پیش بینی را ویرایش کنید و برای تنظیم طول پیش بینی، گزینه periods forward را روی 0 و تنظیمات periods backward را روی 100 قرار دهید.

توضیحات تصویر

Amazon Quicksight همچنین با تجزیه و تحلیل تعدادی از ترکیبات معیارها و روند داده ها، بینش های ناهنجاری مبتنی بر ML را در اختیار کاربران قرار می دهد. مفاهیم تشخیص نقاط پرت مبتنی بر این است که آیا یک نقطه داده شدید به طور تصادفی رخ می دهد یا یک رویداد مهم است. Quicksight در صورت وجود هرگونه ناهنجاری در تصاویر و اینکه آیا ارزش بررسی را دارند به کاربران اطلاع می دهد. روی نماد لامپ در گوشه سمت راست بالای نمودار کلیک کنید. شما بزرگترین ناهنجاری شناسایی شده در سری های زمانی را از طریق بینش های ML خواهید دید. روی گزینه های بیشتر کلیک کنید و سپس جزئیات بیشتر را مشاهده کنید. در پانل سمت چپ، باید لیستی از ناهنجاری ها را با آمارهای اضافی در مورد درصد تغییر از میانگین قیمت کل مورد انتظار مشاهده کنید. روی «افزودن ناهنجاری به برگه» کلیک کنید

توضیحات تصویر

با این کار یک ویجت بینش در همان برگه باز می شود. روی شروع در ویجت کلیک کنید. اکنون به صفحه پیکربندی با پیش نمایش منتقل می شوید

توضیحات تصویر

آمازون Quicksight تجزیه و تحلیل مشارکت‌ها (محرک‌های کلیدی) را ارائه می‌کند که به نتایج غیرعادی کمک می‌کند. گزینه مشارکت کنندگان برتر را گسترش دهید و حداکثر 4 ویژگی را علامت بزنید تا به عنوان محرک های کلیدی برای اجرای تجزیه و تحلیل مشارکت استفاده کنید. تصویر زیر نتایج مربوط به روز، نام رویداد، ماه و محل برگزاری را نشان می دهد.

توضیحات تصویر

برای تأیید انتخاب های خود، ذخیره را انتخاب کنید. شما به عقب برده می شوید
ویجت بینش، که در آن می‌توانید Run now را برای اجرای تشخیص ناهنجاری و مشاهده بینش خود انتخاب کنید. چند دقیقه طول می کشد تا تکمیل شود. پس از تکمیل، باید یک به روز رسانی در ویجت با آخرین ناهنجاری شناسایی شده و گزینه ای برای بررسی ناهنجاری ها مشاهده کنید، که می توانید روی آن کلیک کنید.

توضیحات تصویر

با این کار صفحه ناهنجاری ها مانند تصویر زیر باز می شود. انتخاب کنید SHOW ANOMALIES BY DATE برای نمایش نمودار تعداد ناهنجاری ها که نقاط پرت شناسایی شده در طول زمان را نشان می دهد. ما می‌توانیم دو نقطه پرت را در اواخر ماه می و اواخر ژوئن مشاهده کنیم. در قسمت سمت چپ، می‌توانیم تحلیل مشارکت را در صورت نیاز با مجموعه‌ای از درایورهای کلیدی دوباره اجرا کنیم. در تصویر زیر، من این را بین 26 می 2008 و 27 می 2008 (مرتبط با اولین ناهنجاری) اجرا کردم و انتخاب کردم eventname و eventcity. همچنین می‌توانیم ناهنجاری‌ها را در هر دسته یا بعد بررسی کنیم.

توضیحات تصویر

داشبورد زیر از انواع نمودار میله‌ای عمودی، هیستوگرام و باکس پلات استفاده می‌کند. نمودار میله ای تعداد کل بلیط ها را برای هر سه ماهه سال به تفکیک هر یک از روزهای زوج در هفته نشان می دهد. می بینیم که سه ماهه اول (ژانویه تا مارس) کمترین تعداد بلیت فروخته شده را دارد و سه ماهه سوم دارای تنوع بیشتری در بلیط های فروخته شده در طول هفته است و یکشنبه بیشترین روز برای رویدادها است. در 3 ماه آخر سال بین جمعه تا دوشنبه نسبت به بقیه ایام هفته بلیت بیشتری فروخته ایم.

ژانویه، ماهی در سه ماهه اول است که در آن محدوده و میانگین کل تراکنش‌های یک رویداد به دلیل فروش کمتر بلیط، کمترین احتمال را داشته است. ما می‌توانیم در ماه فوریه یک انحراف سمت راست را با یک سبیل بلند بالا ببینیم. برای بقیه ماه ها، میانگین بین 12 تا 15 هزار پوند ثابت باقی می ماند. ماه نوامبر کمی انحراف سمت چپ را نشان داد و حداکثر ارزش تراکنش برای یک رویداد معین کمی بیش از 32 هزار پوند برای دسامبر، فوریه و می مشاهده شد.

توضیحات تصویر

این برگه شامل نقشه درختی با venuename بعد مرتب شده توسط total_tickets (اندازه مستطیل) و رنگ کدگذاری شده توسط venueseats. هرچه اندازه سالن بزرگتر باشد، سایه سبز تیره تر است (مثلاً میدان فدرال اکسپرس، استادیوم غول های نیویورک، استادیوم Arrowhead) در حالی که هر چه مکان کوچکتر سایه روشن تری از زرد (مثلاً Shoreline Ampitheatre) باشد. می‌توانیم ببینیم که برخی از رویدادها با اندازه مکان‌های کوچک‌تر بین 20 هزار تا 50 هزار، تعداد بیشتری بلیت فروخته‌اند (احتمالاً به این دلیل که رویدادهای بیشتری در این مکان‌ها در این بازه زمانی برگزار می‌شوند). نمودار دایره ای نسبت کل تراکنش ها را برای بالا نشان می دهد eventnameدر اینجا 6 رویداد برتر نشان داده شده و بقیه در دسته “دیگران” گروه بندی می شوند. گروه های Greg Kihn و Yaz (Yazoo) بیش از 65 درصد از کل فروش تراکنش ها را به خود اختصاص دادند.

توضیحات تصویر

حذف منابع

در نهایت، به خاطر داشته باشید که تمام منابع را در Redshift حذف کنید و اشتراک Quicksight ایجاد شده در هر دو بخش این وبلاگ را متوقف کنید تا از دریافت هزینه بیشتر جلوگیری کنید. توجه داشته باشید که برای Redshift Serverless اگرچه وقتی هیچ درخواستی را اجرا نمی کنید برای ظرفیت محاسباتی پرداخت نمی کنید، اما همچنان برای ذخیره سازی هزینه می کنید (جزئیات بیشتر را می توانید در اینجا بیابید).

  • برای حذف اشتراک Quicksight Enterprise دستورالعمل های اینجا را دنبال کنید. همچنین می توانید داشبورد را به pdf صادر کنید و در صورت نیاز داشبورد را حذف کنید.
  • گروه کاری Redshift Serverless و فضای نام مربوطه را می توان با دنبال کردن این دستورالعمل ها حذف کرد.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا