برنامه نویسی

آشنایی با مفاهیم مهندسی داده | 18 | قدرت Dremio در خانه دریاچه مدرن

منابع رایگان

با تغییر سازمان ها به سمت معماری Data Lakehouse ، این سؤال فقط نحوه ذخیره حجم گسترده داده ها نیست – نحوه بهینه سازی آن برای دسترسی سریع و قابل اعتماد بدون اضافه کردن پیچیدگی یا سربار عملیاتی است. Dremio با ترکیب عملکرد ، حاکمیت و باز بودن در سکویی که به صورت بومی بر روی Iceberg Apache ، Apache Arrow و Apache Polaris ساخته شده است ، این چالش را پیش می برد.

در این پست نهایی سری ما ، ما بررسی خواهیم کرد که چگونه Dremio با استفاده از فناوری هایی که در مورد آنها بحث کرده ایم – مانند خوشه بندی ، بازتاب و فهرست نویسی – یک راه حل یکپارچه برای مهندسی داده های مدرن است. ما آنچه را که Dremio را منحصر به فرد می کند ، پوشش خواهیم داد ، چگونه آخرین نوآوری های آن مانند خوشه بندی Iceberg و بازتاب های خودمختار کار می کنند ، و اینکه چرا این قابلیت ها دستیابی به موفقیت برای تیم های داده است که هدف آنها انجام کارهای بیشتر با کمتر است.

ساخته شده برای پشته مدرن

Dremio فقط یک موتور SQL نیست بلکه یک سکوی کامل داده است که برای دوره دریاچه ساخته شده است. این کار به طور مستقیم بر روی داده های ذخیره شده در قالب های باز مانند پارکت و یخ کوه ، با استفاده از Apache Arrow برای عملکرد در حافظه و Apache Polaris برای مدیریت و مدیریت ابرداده انجام می شود. نتیجه سکویی است که نمایش داده های زیر دوم ، پشتیبانی بومی از استانداردهای باز و یک تجربه یکپارچه در سراسر مصرف ، تحول ، اکتشاف و امنیت را ارائه می دهد.

Dremio به جای نیاز به تیم ها برای انتقال داده ها به یک انبار اختصاصی ، فدراسیون پرس و جو را در دریاچه ها ، کاتالوگ ها و بانکهای اطلاعاتی سنتی امکان پذیر می کند. این که آیا داده های شما در S3 ، GCS ، Azure یا انبارهای متعدد زندگی می کند ، Dremio می تواند آن را متصل کند ، پرس و جو کند و آن را اداره کند – همه بدون تکثیر یا حرکت داده.

اما آنچه واقعاً Dremio را از هم جدا می کند ، تمرکز آن بر روی اتوماسیون هوشمند و بهینه سازی طرح داده است. بیایید نحوه عملکرد این ویژگی ها را تجزیه کنیم.

خوشه بندی کوه یخ: سازمان داده های باهوش تر

با رشد مجموعه داده ها ، استراتژی های پارتیشن بندی سنتی کوتاه می آیند. شرکت بیش از حد منجر به سیل پرونده های کوچک می شود. زیر شریک باعث اسکن گسترده می شود. Dremio برای رسیدگی به این شکاف ، خوشه بندی یخ را معرفی می کند.

به جای تقسیم داده ها به پارتیشن های سفت و سخت ، خوشه بندی ردیف ها را بر اساس نزدیکی مقدار ستون با استفاده از Z-سفارش ، نوعی منحنی پر کردن فضا سازماندهی می کند. این تکنیک بیت های مختلف از ستون های مختلف را به هم می زند تا شاخصی را ایجاد کند که محل را حفظ می کند. هرچه مقادیر شاخص نزدیکتر باشد ، ردیف های اصلی در فضای ارزش نزدیک تر بودند – این کار را برای موتور راحت تر از داده های بی ربط آسانتر می کرد.

Dremio با خوشه بندی جداول غیر مشارکت ، می تواند تعداد پرونده های داده و گروه های ردیف اسکن شده در هنگام نمایش داده ها را به طرز چشمگیری کاهش دهد. نتیجه: عملکرد سریعتر بدون سفتی یا پیچیدگی پارتیشن بندی سنتی.

این فرآیند افزایشی و تطبیقی ​​است. Dremio همپوشانی پرونده داده را کنترل می کند (از طریق عمق خوشه بندی اندازه گیری می شود) و به طور انتخابی پرونده ها را برای بازگرداندن طرح کارآمد بازنویسی می کند. شما لازم نیست که همه چیز را دوباره خوشه کنید یا نگران دانه بندی کامل پارتیشن باشید-Dremio آن را به صورت پویا و هوشمندانه کنترل می کند.

بازتاب های خودمختار: هوش مصنوعی برای بهینه سازی پرس و جو

دیدگاههای تحریم شده عالی هستند – تا زمانی که باید تصمیم بگیرید که کدام یک از آنها را ایجاد ، حفظ و رها کنید. Dremio این فرآیند را با بازتاب های خودمختار ، که بار کار شما را تحت نظر دارد ، شناسایی تنگناهای عملکردی و ایجاد نماهای از پیش جمع شده یا از پیش فیلتر شده برای تسریع در نمایش داده ها ، خودکار می کند.

این سیستم الگوهای استفاده و برنامه های پرس و جو را مورد تجزیه و تحلیل قرار می دهد ، بازتاب های بالقوه را بر اساس صرفه جویی در زمان برآورد شده زمان می گذارد و فقط مواردی را ایجاد می کند که تأثیر معنی داری دارند. این حتی آنها را با استفاده از تازه کردن ابرداده زنده و به روزرسانی های افزایشی ، به روز نگه می دارد و از افزایش عملکرد بدون قربانی کردن طراوت اطمینان حاصل می کند.

بازتاب ها بر اساس تجزیه و تحلیل هزینه و سود ، با نگهبان های سخت برای جلوگیری از هدر رفتن منابع ، به طور خودکار بر اساس تجزیه و تحلیل هزینه و سود کاهش می یابد. این فقط اتوماسیون نیست-بهینه سازی هوشمندانه و آگاهانه استفاده است.

با بازتاب های خودمختار Dremio ، شتاب پرس و جو برای کاربر نامرئی می شود. نمایش داده شد سریعتر اجرا می شود ، داشبورد سریعتر بارگیری می شود و تیم ها دیگر نیازی به حدس زدن ندارند که کدام بار کاری یک نمای مادی را توجیه می کند. این پلتفرم با تغییر استفاده شما سازگار است.

حاکمیت و کشف با قطبش

مدیریت جداول کوه یخ در مقیاس به بیش از ردیابی ابرداده نیاز دارد – این امر مستلزم حاکمیت یکپارچه است. ادغام Dremio با Apache Polaris به تیم ها یک کاتالوگ مرکزی می دهد که کنترل های دسترسی را تقویت می کند ، خطوط را ردیابی می کند و از طریق پروتکل های REST باز از دسترسی چند موتوره پشتیبانی می کند.

این که آیا شما از خود Spark ، Trino ، Flink یا Dremio استفاده می کنید ، Polaris یک لایه ثابت برای مدیریت کاتالوگ ها ، فضای نام ها و جداول کوه یخ فراهم می کند. اصولگرایان خدمات و RBAC دسترسی ایمن را تضمین می کنند ، در حالی که اعتبار سنجی به موتورهای پرس و جو اجازه می دهد داده ها را بدون در معرض اعتبار ابری بخوانند.

Polaris با ارائه یک متاستور یکپارچه برای تمام دارایی های کوه یخ شما ، مقیاس مدیریت و ادغام با موتورهای محاسباتی متنوع را آسانتر می کند ، همه در حالی که حاکمیت و دید داده ها را حفظ می کند.

داده های آماده Ai ، خارج از جعبه

با افزایش حجم داده ها و بارهای کار AI افزایش می یابد ، سازمان ها به سیستم عامل های داده ای نیاز دارند که سرعت و وضوح را ارائه می دهند – نه تعمیر و نگهداری. ویژگی های جدید Dremio فقط عملکرد پرس و جو را بهینه نمی کند. آنها همچنین با اتوماسیون هوشمند ، جستجوی معنایی و ابرداده متحد از AI و Analytics پشتیبانی می کنند.

جستجوی معنایی با قابلیت AI به کاربران امکان می دهد مجموعه داده ها را با استفاده از زبان ساده و نه SQL کشف کنند. این باعث می شود مدت زمان شکار برای داده ها کاهش یابد و اکتشاف را برای تحلیلگران و دانشمندان داده به طور یکسان تسریع کند. همراه با بازتاب ها و خوشه بندی ها ، این پلتفرم تضمین می کند که این نمایش داده ها به سرعت بازگشت.

و از آنجا که Dremio با استانداردهای باز-اسبرگ ، فلش و قطبی ساخته شده است-می توانید اعتماد کنید که معماری داده شما قابل حمل ، قابل تعامل و خنثی است.

نتایج دنیای واقعی

Dremio قبلاً قدرت این رویکرد را در داخل نشان داده است. Dremio پس از استقرار خوشه بندی و بازتاب های خودمختار در دریاچه داخلی داخلی خود ، دید:

  • 80 ٪ داشبورد به طور خودکار شتاب می یابد
  • کاهش 10 برابر در زمان پرس و جو صدک 90
  • 30 برابر بهبود در راندمان CPU در هر پرس و جو
  • صرفه جویی در زیرساخت های قابل توجه توسط منابع محاسباتی با اندازه مناسب

این پیشرفت ها نتیجه تنظیم دستی یا مهندسی سفارشی نبود. آنها از طریق اتوماسیون هوشمند به دست آمدند – چیزی که اکنون به هر تیم می تواند دسترسی پیدا کند.

پایان

خانه های دریاچه ها انعطاف پذیری بی نظیری را ارائه می دهند ، اما عملکرد و قابلیت مدیریت مدتهاست که نقاط درد باقی مانده است. Dremio با ویژگی هایی مانند خوشه بندی کوه یخ ، بازتاب های خودمختار و کاتالوگ Polaris ، خانه دریاچه را به یک سکوی با کارایی بالا ، اداره شده و خود بهینه تبدیل می کند.

برای مهندسان داده ، این به معنای مداخلات دستی کمتر ، سریعتر از زمان به سمت و اعتماد به نفس بیشتر در نحوه ارائه داده ها است. برای تحلیلگران و تیم های هوش مصنوعی ، این به معنای نمایش داده های فرعی و دسترسی آسان به داده های مورد نیاز آنها است-بدون تأخیر در خط لوله ، بدون تنظیم لازم نیست.

به عنوان توقف نهایی در این سری ، Dremio نشانگر اوج اصول مهندسی داده های مدرن است: باز بودن ، اتوماسیون و کارآیی. اگر در حال ساختن یخ کوه هستید و می خواهید تمام پتانسیل های خود را باز کنید ، Dremio سکویی را ارائه می دهد که نه تنها برای پشتیبانی از معماری شما بلکه برای بالا بردن آن.

برای دیدن آن در عمل ، Dremio را به صورت رایگان امتحان کنید یا آخرین پرتاب را کشف کنید تا بدانید که چگونه این قابلیت ها می تواند به تیم شما کمک کند تا یک دریاچه سریعتر و باهوش تر بسازد.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا