تجزیه و تحلیل داده ها با Redshift Serverless و Quicksight – قسمت 2
در بخش اول این وبلاگ، پیشنهاد Redshift Serverless را معرفی کردهایم و یک گروه کاری و فضای نام پیکربندی شده با اشتراکگذاری داده را تنظیم کردهایم تا امکان دسترسی به AWS Marketplace Data Exchange را فراهم کند. در بخش دوم این وبلاگ، ما بر روی دسترسی به داده های Amazon Quicksight برای ایجاد تجسم های تعاملی و بررسی برخی ویژگی های دیگر که ارائه می دهد تمرکز خواهیم کرد.
Amazon Quicksight یک سرویس هوش تجاری (BI) کاملاً مدیریت شده است که به کاربران امکان می دهد داشبوردها را منتشر کرده و بین اعضای تیم به اشتراک بگذارند. از آنجایی که این یک پیشنهاد بدون سرور است، بدون نگرانی در مورد مدیریت زیرساخت های زیربنایی، به ده ها هزار کاربر می رسد. این می تواند به طیف گسترده ای از منابع داده در فضای ابری (S3، RDS، Redshift، Athena) و on-prem متصل شود.
همچنین برخی از ویژگیهای پیشرفتهتر مانند ادغام بینشهای یادگیری ماشین با داشبورد را در قالب پیشبینی، تشخیص ناهنجاری و جستجوی زبان طبیعی ارائه میکند. برخی از این موارد را در این وبلاگ بررسی خواهیم کرد.
راه اندازی اشتراک Quicksight
اگر این اولین باری است که از Quicksight استفاده می کنید، باید یک حساب کاربری ایجاد کنید. وارد حساب کاربری IAM خود شوید و سپس به سرویس Quicksight بروید. دستورالعملهای اینجا را دنبال کنید و گزینههای راهاندازی حساب سازمانی با روش احراز هویت بهعنوان کاربران فدرال و نقش مدیریتشده توسط QuickSight را انتخاب کنید و به Redshift دسترسی بدهید. یک اشتراک آزمایشی رایگان به مدت 30 روز برای اشتراک استاندارد یا شرکتی دریافت خواهید کرد. اگر دوره آزمایشی رایگان شما منقضی شده است، میتوانید برای یکی از پرداختهای ارزانتر اشتراکهای Reader ثبتنام کنید که فقط برای یک جلسه فعال شارژ میشود و پس از تکمیل این آموزش میتوان آن را متوقف کرد.
هنگامی که اشتراک را تنظیم کردید، باید بتوانید به عنوان یک کاربر IAM وارد Quicksight شوید و با انتخاب نماد کاربر در سمت راست بالای صفحه و انتخاب حساب خود، حساب خود را مدیریت کنید. Manage Quicksight
. اکنون می توانید اشتراک فعال خود را بررسی کنید یا به عنوان کاربر سرپرست، در صورت نیاز کاربران را به حساب خود دعوت کنید و بر اساس آن مجوزها را مدیریت کنید.
Quicksight همچنین از SPICE برای اجرای محاسبات سریع درون حافظه روی داده ها برای تجزیه و تحلیل بصری استفاده می کند. برای اشتراک های Enterprise، داده ها به طور پیش فرض در حالت استراحت رمزگذاری می شوند. بهطور پیشفرض، مجموعاً 11 گیگابایت ظرفیت SPICE در هر منطقه در هر حساب اشتراک دریافت میکنیم که میتواند بین کاربران Quicksight اضافه شده به حساب به اشتراک گذاشته شود. ما داده ها را از Redshift در SPICE برای این آموزش بارگیری خواهیم کرد و ظرفیت آن بیش از اندازه کافی خواهد بود.
اتصال به Redshift
- در صفحه شروع آمازون QuickSight، Datasets را از گزینههای سمت چپ و در صفحه Datasets، گزینه New data set را در بالا سمت راست انتخاب کنید (تصویر زیر).
- در پنجره جدید، نماد اتصال دستی Redshift را انتخاب کنید. یک پنجره جدید ظاهر می شود که باید اطلاعات اتصال را برای منبع داده پر کنید.
- برای نام منبع داده، نامی برای منبع داده وارد کنید.
- برای سرور پایگاه داده، باید نقطه پایانی خوشه را بازیابی کنید. هنگام کلیک بر روی گروه کاری کلاستر در داشبورد Redshift Serverless، می توانید مقدار نقطه پایانی را از قسمت Endpoint در قسمت اطلاعات عمومی دریافت کنید. آدرس سرور اولین قسمت نقطه پایانی قبل از کولون است که در زیر با رنگ زرد مشخص شده است.
- پورت به عنوان درگاه پیشفرض برای redshift (5439) خواهد بود، مگر اینکه در تنظیمات بهطور متفاوتی تنظیم شده باشد، که در این صورت از آدرس نقطه پایانی (تعداد بعد از کولون اول) تأیید کنید.
- نام پایگاه داده (بعد از کولون دوم در نقطه پایانی) را وارد کنید. در مورد من، توسعه دهنده است.
- برای نام کاربری و رمز عبور، نام کاربری و رمز عبوری را که در قسمت 1 این وبلاگ پیکربندی کردهاید، هنگام راهاندازی خوشه انتقال به سرخ وارد کنید.
- را کلیک کنید
Validate Connection
. اگر موفقیت آمیز بود، باید یک تیک سبز رنگ را ببینید که می گوید معتبر است. اگر این کار انجام نشد، بررسی کنید که کارهای زیر را انجام داده اید:- بررسی کنید که گروه امنیتی متصل به خوشه Redshift به ترافیک ورودی از محدوده آدرس IP مرتبط با منطقه ای که Quicksight در آن راه اندازی شده است، اجازه دهد که در وبلاگ قبلی توضیح داده شد.
- آیا فراموش کرده اید که VPC را که کلاستر Redshift در آن قرار دارد در دسترس عموم قرار دهید؟
- بررسی کنید که از نام کاربری و/یا رمز عبور صحیح استفاده می کنید (این را می توان از داشبورد Redshift بازنشانی کرد).
- با فرض اینکه همه چیز کار کرد، روی Create DataSource کلیک کنید.
- طرح و مجموعه جداول برای اتصال به شما نمایش داده می شود. منظره
worldwide_events_vw
ایجاد شده در وبلاگ قبلی، باید قابل مشاهده باشد. این را انتخاب کنید و روی next کلیک کنید.
- در پنجره بعدی، باید انتخاب کنیم که آیا میخواهیم مستقیماً مجموعه داده را از منبع پرس و جو کنیم یا از دادههای جدول همانطور که هست استفاده کنیم و به SPICE وارد کنیم. روش دوم روشی است که توصیه میشود، زیرا عملکرد و تجزیه و تحلیل سریعتر را بهبود میبخشد، مشروط بر اینکه ظرفیت SPICE کافی داشته باشید. انتخاب کنید
Import to SPICE
گزینه - اگر نمیخواهید زمانی که بازخوانی ناموفق بود برای شما ایمیل ارسال شود، علامت کادر را بردارید. سپس انتخاب کنید
Visualize
.
تنظیمات پیش فرض را برای ایجاد یک برگه جدید بپذیرید و اکنون باید داشبورد ایجاد نمودارها به شما نمایش داده شود.
اطلاعات بینش
Quicksight تعدادی از انواع بصری را ارائه می دهد که می توان آنها را از پنجره انواع بصری با استفاده از نماد بصری نماینده انتخاب کرد. اسناد AWS در مورد ایجاد تصاویری با دید سریع مراحل اضافه کردن تصویر به داشبورد را طی میکنند. ابتدا یک نمودار خطی از انواع بصری ایجاد می کنیم تا فیلدهای caldate و totalprice را از لیست فیلدها رسم کنیم.
Quicksight به کاربران غیر فنی اجازه می دهد تا پیش بینی هایی را با استفاده از الگوریتم Random Cut Forest برای تجزیه و تحلیل داده های تاریخی و ایجاد پیش بینی برای یک دوره مشخص با فاصله پیش بینی سطح اطمینان مورد نیاز ایجاد کنند.
- برای مدت پیشبینی، دورههای رو به جلو را 14 تنظیم میکنیم
- فاصله پیش بینی را روی 90 قرار دهید.
- فصلی را روی
auto
و سایر تنظیمات را به عنوان مقادیر پیش فرض بگذارید.
ما یک بازه اطمینان گسترده را دریافت می کنیم که نشان می دهد پیش بینی می تواند در هر جایی در آن محدوده باشد. مقدار کمتری از فاصله پیشبینی، باند باریکتری ایجاد میکند، اما اطمینان کمتری به پیشبینی میدهد.
همچنین میتوانیم پیشبینی برای دورهای از تاریخ ایجاد کنیم و آن را با دادههای واقعی مقایسه کنیم. برای انجام این کار، پیش بینی را ویرایش کنید و برای تنظیم طول پیش بینی، گزینه periods forward را روی 0 و تنظیمات periods backward را روی 100 قرار دهید.
Amazon Quicksight همچنین با تجزیه و تحلیل تعدادی از ترکیبات معیارها و روند داده ها، بینش های ناهنجاری مبتنی بر ML را در اختیار کاربران قرار می دهد. مفاهیم تشخیص نقاط پرت مبتنی بر این است که آیا یک نقطه داده شدید به طور تصادفی رخ می دهد یا یک رویداد مهم است. Quicksight در صورت وجود هرگونه ناهنجاری در تصاویر و اینکه آیا ارزش بررسی را دارند به کاربران اطلاع می دهد. روی نماد لامپ در گوشه سمت راست بالای نمودار کلیک کنید. شما بزرگترین ناهنجاری شناسایی شده در سری های زمانی را از طریق بینش های ML خواهید دید. روی گزینه های بیشتر کلیک کنید و سپس جزئیات بیشتر را مشاهده کنید. در پانل سمت چپ، باید لیستی از ناهنجاری ها را با آمارهای اضافی در مورد درصد تغییر از میانگین قیمت کل مورد انتظار مشاهده کنید. روی «افزودن ناهنجاری به برگه» کلیک کنید
با این کار یک ویجت بینش در همان برگه باز می شود. روی شروع در ویجت کلیک کنید. اکنون به صفحه پیکربندی با پیش نمایش منتقل می شوید
آمازون Quicksight تجزیه و تحلیل مشارکتها (محرکهای کلیدی) را ارائه میکند که به نتایج غیرعادی کمک میکند. گزینه مشارکت کنندگان برتر را گسترش دهید و حداکثر 4 ویژگی را علامت بزنید تا به عنوان محرک های کلیدی برای اجرای تجزیه و تحلیل مشارکت استفاده کنید. تصویر زیر نتایج مربوط به روز، نام رویداد، ماه و محل برگزاری را نشان می دهد.
برای تأیید انتخاب های خود، ذخیره را انتخاب کنید. شما به عقب برده می شوید
ویجت بینش، که در آن میتوانید Run now را برای اجرای تشخیص ناهنجاری و مشاهده بینش خود انتخاب کنید. چند دقیقه طول می کشد تا تکمیل شود. پس از تکمیل، باید یک به روز رسانی در ویجت با آخرین ناهنجاری شناسایی شده و گزینه ای برای بررسی ناهنجاری ها مشاهده کنید، که می توانید روی آن کلیک کنید.
با این کار صفحه ناهنجاری ها مانند تصویر زیر باز می شود. انتخاب کنید SHOW ANOMALIES BY DATE
برای نمایش نمودار تعداد ناهنجاری ها که نقاط پرت شناسایی شده در طول زمان را نشان می دهد. ما میتوانیم دو نقطه پرت را در اواخر ماه می و اواخر ژوئن مشاهده کنیم. در قسمت سمت چپ، میتوانیم تحلیل مشارکت را در صورت نیاز با مجموعهای از درایورهای کلیدی دوباره اجرا کنیم. در تصویر زیر، من این را بین 26 می 2008 و 27 می 2008 (مرتبط با اولین ناهنجاری) اجرا کردم و انتخاب کردم eventname
و eventcity
. همچنین میتوانیم ناهنجاریها را در هر دسته یا بعد بررسی کنیم.
داشبورد زیر از انواع نمودار میلهای عمودی، هیستوگرام و باکس پلات استفاده میکند. نمودار میله ای تعداد کل بلیط ها را برای هر سه ماهه سال به تفکیک هر یک از روزهای زوج در هفته نشان می دهد. می بینیم که سه ماهه اول (ژانویه تا مارس) کمترین تعداد بلیت فروخته شده را دارد و سه ماهه سوم دارای تنوع بیشتری در بلیط های فروخته شده در طول هفته است و یکشنبه بیشترین روز برای رویدادها است. در 3 ماه آخر سال بین جمعه تا دوشنبه نسبت به بقیه ایام هفته بلیت بیشتری فروخته ایم.
ژانویه، ماهی در سه ماهه اول است که در آن محدوده و میانگین کل تراکنشهای یک رویداد به دلیل فروش کمتر بلیط، کمترین احتمال را داشته است. ما میتوانیم در ماه فوریه یک انحراف سمت راست را با یک سبیل بلند بالا ببینیم. برای بقیه ماه ها، میانگین بین 12 تا 15 هزار پوند ثابت باقی می ماند. ماه نوامبر کمی انحراف سمت چپ را نشان داد و حداکثر ارزش تراکنش برای یک رویداد معین کمی بیش از 32 هزار پوند برای دسامبر، فوریه و می مشاهده شد.
این برگه شامل نقشه درختی با venuename
بعد مرتب شده توسط total_tickets
(اندازه مستطیل) و رنگ کدگذاری شده توسط venueseats
. هرچه اندازه سالن بزرگتر باشد، سایه سبز تیره تر است (مثلاً میدان فدرال اکسپرس، استادیوم غول های نیویورک، استادیوم Arrowhead) در حالی که هر چه مکان کوچکتر سایه روشن تری از زرد (مثلاً Shoreline Ampitheatre) باشد. میتوانیم ببینیم که برخی از رویدادها با اندازه مکانهای کوچکتر بین 20 هزار تا 50 هزار، تعداد بیشتری بلیت فروختهاند (احتمالاً به این دلیل که رویدادهای بیشتری در این مکانها در این بازه زمانی برگزار میشوند). نمودار دایره ای نسبت کل تراکنش ها را برای بالا نشان می دهد eventname
در اینجا 6 رویداد برتر نشان داده شده و بقیه در دسته “دیگران” گروه بندی می شوند. گروه های Greg Kihn و Yaz (Yazoo) بیش از 65 درصد از کل فروش تراکنش ها را به خود اختصاص دادند.
حذف منابع
در نهایت، به خاطر داشته باشید که تمام منابع را در Redshift حذف کنید و اشتراک Quicksight ایجاد شده در هر دو بخش این وبلاگ را متوقف کنید تا از دریافت هزینه بیشتر جلوگیری کنید. توجه داشته باشید که برای Redshift Serverless اگرچه وقتی هیچ درخواستی را اجرا نمی کنید برای ظرفیت محاسباتی پرداخت نمی کنید، اما همچنان برای ذخیره سازی هزینه می کنید (جزئیات بیشتر را می توانید در اینجا بیابید).
- برای حذف اشتراک Quicksight Enterprise دستورالعمل های اینجا را دنبال کنید. همچنین می توانید داشبورد را به pdf صادر کنید و در صورت نیاز داشبورد را حذف کنید.
- گروه کاری Redshift Serverless و فضای نام مربوطه را می توان با دنبال کردن این دستورالعمل ها حذف کرد.