پردازش داده های سری زمانی در لاجورد: گزینه ها

داده های سری زمانی نقاط داده ای هستند که در زمان های پی در پی جمع آوری یا ضبط می شوند. این نوع داده ها در دنیای دیجیتال امروز به طور فزاینده ای اهمیت می یابد زیرا سیستم های بیشتر ، سنسورها و برنامه های کاربردی جریان های مداوم اطلاعات را ایجاد می کنند.
از دستگاه های IoT و بازارهای مالی گرفته تا تجزیه و تحلیل وب سایت و نظارت بر صنعتی ، داده های با مهر و موم شده سازمانها را قادر می سازد روند را تشخیص دهند ، نتایج را پیش بینی کنند و به تغییرات در زمان واقعی پاسخ دهند. از آنجا که صنایع برای عملیات باهوش تر و تصمیم گیری سریعتر تلاش می کنند ، توانایی جمع آوری ، ذخیره و تجزیه و تحلیل داده های سری زمانی به یک توانایی مهم برای راه حل های داده مدرن تبدیل شده است.
هنگام کار با چندین شرکت در صنایع مختلف ، گزینه ها و رویکردهای مختلفی را برای ذخیره داده های سری زمانی مشاهده کردم و به همین دلیل تصمیم گرفتم این سری پست وبلاگ را بنویسم.
گزینه های مختلف در مایکروسافت لاجورد
چندین روش و گزینه برای پردازش و ذخیره داده های زمان بندی در مایکروسافت لاجورد وجود دارد و این مقاله به سرعت آنها را لیست و لمس می کند.
برخی از فناوری ها بعداً مقاله مفصلی را دریافت می کنند.
داده های سری زمانی چیست؟
داده های سری زمانی مجموعه ای از رویدادها است. در راه حل های پیام رسانی ، انواع مختلفی از پیام ها وجود دارد که بین سیستم ها رد و بدل می شوند:
- پیام: اینها اهداف هستند. یک پیام می تواند یک دستور ، یک پرس و جو ، یک درخواست باشد. این بدان معنی است که اتفاقی باید رخ دهد و انتظار می رود.
- وقایع: این واقعیت ها هستند. یک رویداد فقط بیان می کند که اتفاقی افتاده است و می تواند یک اندازه گیری ، گزارش یا اطلاع رسانی باشد.
سری زمانی در آن دسته دوم قرار می گیرد. با این حال ، آنها رویدادهای گسسته نیستند (که به تنهایی مستقل و عملی هستند).
سری های زمانی به موقع سفارش می شوند و به طور معمول توسط یک زمینه معین تقسیم می شوند. (به عنوان مثال: meterid ، وب سایت visitorid …). بنابراین یک برنامه به طور معمول دارای چندین سری زمانی خواهد بود. و اینها می توانند به تنهایی قابل تجزیه و تحلیل باشند یا با یکدیگر مقایسه شوند.
4 مؤلفه داده های سری زمانی
چهار مؤلفه اصلی وجود دارد که داده های سری زمانی را تشکیل می دهند.
- روند: جهت بلند مدت داده های سری زمانی
- اثر چرخه ای: نوسانات بزرگتر در مورد تغییر بلند مدت. به طور معمول در دوره های طولانی تر از فصلی و بدون فرکانس ثابت.
- فصلی: تغییراتی که در دوره های زمانی ثابت رخ می دهد و تکرار می شود (هر سال ، هر یکشنبه و غیره). یک سری زمانی می تواند چندین فرکانس فصلی داشته باشد.
- اثر باقیمانده (همچنین از آن به عنوان سر و صدا یاد می شود). تغییرات غیرقابل پیش بینی بدون الگویی که نمی تواند با اجزای قبلی مرتبط باشد.
سری زمانی و پردازش سری در لاجورد
چندین امکان برای ذخیره سری های زمانی در Azure در زیر ذکر شده است. فقط بدانید که این لیست جامع نیست.
کاوشگر داده لاجورد
Azure Data Explorer (ADX ، AKA Kusto) یک سرویس تجزیه و تحلیل داده های سریع و بسیار مقیاس پذیر برای تجزیه و تحلیل حجم های بزرگ داده های ساختاری ، نیمه ساختار یافته و بدون ساختار در زمان واقعی است. به ویژه برای داده های سری زمانی مناسب است ، جایی که نرخ مصرف زیاد و پرس و جو سریع در مورد مجموعه داده های بزرگ بسیار مهم است. ADX از قابلیت های خاص سری زمانی مانند جمع آوری اتوماتیک ، پایین آمدن و پیوندهای مبتنی بر زمان پشتیبانی می کند ، و آن را برای نظارت بر روند ، تشخیص ناهنجاری ها و تجسم داده ها به مرور زمان ایده آل می کند.
زبان قدرتمند Kusto Query آن (KQL) کاربران را قادر می سازد تا بینش را به طور موثر ، حتی از میلیارد ها سوابق ، استخراج کنند. با پشتیبانی بومی از خطوط لوله مصرف با توان بالا و ادغام یکپارچه با سایر خدمات لاجورد ، Azure Data Explorer یک راه حل قوی و مقیاس پذیر برای مدیریت و تجزیه و تحلیل داده های سری زمانی ارائه می دهد.
پارچه لاجورد تحلیلی در زمان واقعی
Azure Fabric Real-Time Analytics یک سرویس در Microsoft Fabric است ، که یک پلت فرم تحلیلی همه در یک است که ترکیب مهندسی داده ها ، انبارداری داده ها ، تجزیه و تحلیل در زمان واقعی و BI آن را در بالای Kusto ساخته شده است ، موتور که قدرت ADX را به ارث می برد ، بنابراین به ارث می برد Adx's Strengts-Engestion Faster ، پشتیبانی از سری زمان ، و Kusto uper (Kusto ure (Kusto “(Kusto uer). با این حال ، این یکپارچه سازی عمیق تر با اکوسیستم پارچه گسترده تر ، مانند Onelake (یک دریاچه داده یکپارچه) ، Power BI و سایر ابزارهای مشترک و حاکمیتی در مایکروسافت 365 را اضافه می کند.
این همچنین با یک مدل قیمت گذاری بسیار متفاوت همراه است ، که بیشتر به معنای گران تر بودن آن است.
پایگاه داده لاجورد برای postgreSQL با TimescaledB
PostgreSQL یک پایگاه داده رابطه ای با منبع باز است که به دلیل استحکام ، گسترش پذیری و پشتیبانی از نمایش داده های پیچیده شناخته شده است و آن را به یک پایه محکم برای مدیریت داده های سری زمانی تبدیل می کند. هنگامی که با TimescaledB ترکیب می شود ، یک پسوند postgreSQL که به طور خاص برای بار کاری سری زمانی طراحی شده است ، قابلیت های آن به طور قابل توجهی افزایش می یابد. TimescaledB ویژگی هایی مانند پارتیشن بندی اتوماتیک (Hypertables) ، فشرده سازی مبتنی بر زمان و سنگدانه های مداوم را اضافه می کند ، PostgreSQL را قادر می سازد تا بتواند به طور کارآمد ، پرس و جو و تجزیه و تحلیل حجم گسترده داده های با مهر و موم شده باشد.
بانک اطلاعاتی لاجورد برای PostgreSQL یک سرویس پایگاه داده کاملاً مدیریت شده را ارائه می دهد ، که در آن می توان TimescaledB را نیز ارائه داد.
Azure نمونه مدیریت شده برای Appache Cassandra
Apache Cassandra یک بانک اطلاعاتی بسیار مقیاس پذیر و توزیع شده NOSQL است که برای دستیابی به حجم زیادی از داده ها در گره های مختلف با در دسترس بودن بالا و هیچ نقطه ای از خرابی طراحی شده است. به دلیل معماری بهینه سازی شده نوشتن ، مقیاس پذیری افقی و پشتیبانی از عملیات با توان بالا ، به ویژه برای داده های سری زمانی مناسب است. مدل داده Cassandra امکان ذخیره سازی کارآمد و بازیابی سوابق با تمبر زمان را با استفاده از تکنیک هایی مانند ردیف های گسترده و کلیدهای کامپوزیت فراهم می کند و آن را به یک انتخاب قوی برای برنامه های سری زمانی تبدیل می کند که سرعت ، مقیاس پذیری و تحمل گسل بسیار مهم است.
Microsoft Azure اجازه می دهد تا یک نمونه مدیریت شده از Appache Cassandra را در اشتراک Azure خود تنظیم کنید ، بنابراین مدیریت و تنظیم واقعی خوشه بسیار سریعتر می رود ، در مقایسه با تنظیم خوشه خود در محیط.
بینش های زمان آزور
این سرویس بسیار آسان برای استفاده بود ، اما این سرویس به نفع پارچه لاجورد و اکسپلورر داده لاجورد کاهش یافته است. اما به خصوص سری Time Explorer ابزاری بسیار بصری و جالب برای کشف و تجسم داده های سری زمانی بود. این را می توانید در صفحه نمایش زیر مشاهده کنید.