برنامه نویسی

چشم انداز مهندسی داده های منبع باز 2025

هروها سدگی هستند
دوباره از https://www.pracdata.io/p/open-source-data-engineering-landscape-2025 بازسازی شد

مقدمه

چشم انداز مهندسی داده های منبع باز با پیشرفت های چشمگیر در بین ذخیره ، پردازش ، ادغام و تجزیه و تحلیل در سال 2024 به سرعت در حال تکامل است.

این دومین سال است که منظره مهندسی داده های منبع باز منتشر می شود. هدف شناسایی و نمایش پروژه های فعال کلیدی و ابزارهای برجسته در فضای مهندسی داده ها و ارائه یک نمای کلی از اکوسیستم مهندسی داده پویا ، روندهای کلیدی و تحولات است.

در حالی که این منظره سالانه منتشر می شود ، مخزن همراه GitHub به طور مرتب در طول سال به روز می شود. در صورت مشاهده هر مؤلفه گمشده ، احساس راحتی کنید.

روش تحقیق

انجام چنین تحقیقات گسترده ای نیاز به تلاش و زمان قابل توجهی دارد. من به طور مداوم تحقیق می کنم و تلاش می کنم در مورد تحولات چشمگیر در اکوسیستم مهندسی داده در طول سال ، از جمله اخبار ، فعالیت ها ، روندها ، گزارش ها و پیشرفت ها آگاه باشم.

سال گذشته ، من بستر داده های کوچک خودم را برای ردیابی رویدادهای مخزن عمومی GitHub ساختم ، و این امکان را برای تجزیه و تحلیل بهتر معیارهای مرتبط با GitHub از ابزارهای منبع باز مانند فعالیت کد ، ستاره ها ، تعامل کاربر و وضوح مسئله فراهم کردم.

این پشته شامل یک دریاچه داده (S3) ، پارکت به عنوان قالب سریال سازی ، DuckDB برای پردازش و تجزیه و تحلیل ، Apache NIFI برای ادغام داده ها ، Apache Superset برای تجسم و PostgreSQL برای مدیریت ابرداده ، از جمله سایر ابزارها است. این تنظیم به من این امکان را داده است که تقریباً 1TB از داده های رویداد Raw GitHub ، متشکل از میلیاردها سوابق ، به همراه یک مجموعه داده جمع شده که روزانه جمع می شود ، جمع آوری کنم و در کل بیش از 500 میلیون رکورد برای سال 2024.

معیارهای انتخاب ابزار

پروژه های منبع باز موجود برای هر گروه به وضوح وسیع هستند ، و این باعث می شود که شامل هر ابزار و پروژه در منظره ارائه شده غیر عملی باشد.

در حالی که صفحه GitHub شامل لیست جامع تری از ابزارها است ، چشم انداز سالانه منتشر می شود فقط شامل پروژه های فعال است ، به استثنای پروژه های غیرفعال و نسبتاً جدید و بدون بلوغ و کشش. با این حال همه ابزارهای موجود ممکن است کاملاً آماده تولید باشند. برخی هنوز در سفر خود به سمت بلوغ هستند.

بدون آزار و اذیت بیشتر ، در اینجا منظره مهندسی داده های منبع باز 2025 وجود دارد:

شرح تصویر

چشم انداز مهندسی داده های منبع باز 2025

وضعیت منبع باز در سال 2025

اکوسیستم مهندسی داده های منبع باز در سال 2024 رشد قابل توجهی را تجربه کرد و بیش از 50 ابزار جدید در حالی که تقریباً 10 پروژه غیرفعال و بایگانی شده را از بین می برد ، به چشم انداز امسال اضافه شد. اگرچه همه این ابزارها در سال 2024 راه اندازی نشده اند ، اما آنها افزودنی های مهمی را برای اکوسیستم نشان می دهند.

در حالی که این رشد نشان دهنده نوآوری مداوم است ، سال نیز در مورد تحولات مربوط به تغییرات صدور مجوز ، شاهد تحولات بود. پروژه های مستقر از جمله Redis ، CockroachDB ، Elasticsearch و Kibana به مجوزهای بسته تر و اختصاصی منتقل شدند ، اگرچه بعداً الاستیک از بازگشت به مجوز منبع باز خبر داد.

با این حال ، این تغییرات با کمک های قابل توجهی به جامعه منبع باز از بازیکنان اصلی صنعت متعادل شد. سهم Snowflake از Polaris ، تهیه منبع آزاد Databricks از Unity ، اهدای Onehouse از Apache Xtable ، و انتشار Netflix از Maestro نشان داد که تعهد مداوم به توسعه منبع باز از سوی رهبران صنعت است.

بنیاد آپاچی موقعیت خود را به عنوان یک مباشر اصلی فن آوری های داده ، به طور فعال چندین پروژه امیدوارکننده در طول سال 2024 حفظ کرد. پروژه های قابل توجه در جوجه کشی شامل Apache Xtable (قالب جدول جهانی) ، Apache Amoro (مدیریت دریاچه) ، Apache Horaedb (پایگاه داده-Series) ، Apache Gravitino (کاتالوگ داده) ، آپاچی گلوتن (میانی نرم افزار) و Apache Polaris (کاتالوگ داده).

بنیاد لینوکس همچنین موقعیت خود را در فضای داده تقویت کرده و همچنان به میزبانی پروژه های استثنایی مانند Delta Lake ، Amundsen ، Kedro ، Milvus و Marquez ادامه می دهد. این بنیاد نمونه کارها خود را در سال 2024 با اضافات قابل توجه جدید ، از جمله VLLM ، اهدا شده توسط دانشگاه کالیفرنیا ، برکلی و OpenSearch که از AWS به بنیاد لینوکس منتقل شده است ، گسترش داد.

منبع باز در مقابل Open Core vs Open Foundation

همه پروژه های ذکر شده کاملاً قابل تعامل نیستند ، ابزارهای منبع باز فروشنده. برخی از آنها تحت یک مدل هسته باز عمل می کنند ، جایی که همه مؤلفه های سیستم کامل در نسخه منبع باز در دسترس نیستند. به طور معمول ، ویژگی های مهم مانند امنیت ، حاکمیت و نظارت برای نسخه های پرداخت شده است.

سؤالاتی در مورد پایداری مدل کسب و کار اصلی باز باقی مانده است. این مدل با چالش های قابل توجهی روبرو است و برخی معتقدند که ممکن است جای خود را به مدل بنیاد باز بدهد. در این رویکرد ، نرم افزار منبع باز به عنوان ستون فقرات پیشنهادهای تجاری عمل می کند ، و اطمینان می دهد که با تمام ویژگی های لازم ، محصولی کاملاً مناسب برای تولید باقی مانده است.

نمای کلی دسته ها

چشم انداز مهندسی داده به 9 دسته اصلی تقسیم می شود:

  1. سیستم های ذخیره سازی: بانکهای اطلاعاتی و موتورهای ذخیره سازی که شامل راه حل های OLTP ، OLAP و تخصصی ذخیره سازی هستند.
  2. Platform Lake Data: ابزارها و چارچوب هایی برای ساخت و مدیریت دریاچه های داده و خانه های دریاچه.
  3. پردازش و ادغام داده ها: چارچوب های مربوط به پردازش دسته ای و جریان ، به علاوه ابزارهای پردازش داده های پایتون.
  4. Orchestration & DataOps گردش کار: ابزاری برای خطوط لوله داده ارکستر و مدیریت عملیات داده.
  5. ادغام داده ها: راه حل هایی برای مصرف داده ها ، CDC (تغییر ضبط داده ها) و ادغام بین سیستم ها.
  6. زیرساخت داده ها: اجزای اصلی زیرساخت از جمله ارکستراسیون کانتینر و نظارت.
  7. پلت فرم ML/AI: ابزارهایی که بر روی سیستم عامل های ML ، MLOP ها و بانکهای اطلاعاتی وکتور متمرکز شده اند.
  8. مدیریت ابرداده: راه حل هایی برای کاتالوگ داده ها ، مدیریت و مدیریت ابرداده.
  9. تجزیه و تحلیل و تجسم: ابزارهای BI ، چارچوب های تجسم و موتورهای تحلیلی.

در بخش بعدی آخرین روندها ، نوآوری ها و وضعیت فعلی محصولات اصلی در هر گروه به طور خلاصه مورد بحث قرار می گیرد.

1. سیستم های ذخیره سازی

منظره سیستم های ذخیره سازی در سال 2024 پیشرفت های معماری قابل توجهی را مشاهده کرده است ، به ویژه در حوزه سیستم های پایگاه داده OLAP.

DuckDB به عنوان یک داستان موفقیت آمیز ، به ویژه پس از انتشار 1.0 که نشان دهنده آمادگی تولید برای استفاده از شرکت است ، ظاهر شد. دسته جدید OLAP تعبیه شده با شرکت کنندگان جدید مانند CHDB (ساخته شده در Clickhouse) ، GlaredB و SattedB گسترش یافته است و این نشان دهنده تقاضای رو به رشد برای قابلیت های پردازش تحلیلی سبک است.

شرح تصویر

پسوند OLAP و HTAS

پیشرفت قابل توجهی گسترش پسوندهای جدید OLAP به ویژه در اکوسیستم PostgreSQL بوده است.

این پسوندها امکان گسترش یکپارچه بانکهای اطلاعاتی OLTP را فراهم می کنند ، و این سیستم ها را به HTAP (پردازش معاملات ترکیبی/تحلیلی ترکیبی) یا HTA های جدید (ذخیره سازی تحلیلی معاملاتی ترکیبی) تبدیل می کنند که یکپارچه سازی داده های بدون سر – مانند دریاچه های داده و دریاچه ها – با سیستم های پایگاه داده معاملاتی ادغام می شوند.

شرح تصویر

آزادی PG_DUCKDB MONDERDUCK نشان دهنده پیشرفت عمده ای بود و DuckDB را قادر می سازد به عنوان موتور OLAP تعبیه شده در PostgreSQL خدمت کند. پسوند PG_MOONCAKE به دنبال آن ، قابلیت های فروشگاه ستون بومی را در قالب های جدول باز مانند Iceberg و Delta فراهم می کند. داده های Crunchy و ParadedB به ترتیب از طریق PG_PARQUET و PG_ANALYTICS کمک های مشابهی انجام دادند و امکان تجزیه و تحلیل مستقیم بر روی پرونده های پارکت را در دریاچه های داده فراهم می کنند.

معماری دیسک صفر

معماری دیسک صفر به عنوان شاید تحول آمیزترین روند در سیستم های ذخیره سازی پدیدار شد ، و اساساً نحوه مدیریت سیستم های پایگاه داده ذخیره و محاسبه لایه ها را تغییر می دهد.

این رویکرد معماری نیاز به دیسک های متصل به محلی را به طور کامل از بین می برد ، در عوض با استفاده از راه حل های ذخیره سازی عمیق از راه دور مانند ذخیره سازی شیء S3 به عنوان لایه پایداری اصلی.

فراتر از سیستم های ذخیره سازی OLAP ، مانند انبارهای داده ابری و قالب های جدول باز ، ما شاهد ظهور قابل توجهی از این الگوی در سیستم های NOSQL ، زمان واقعی ، جریان و معاملات هستیم.

تجارت اصلی برای سیستم های دیسک مبتنی بر دیسک در مقابل ، هزینه در مقابل عملکرد و تأخیر I/O برای خواندن و نوشتن داده ها به ذخیره فیزیکی است. در حالی که سیستم های مبتنی بر دیسک می توانند I/O سریع زیر میلیسوت ثانیه را مدیریت کنند ، سیستم های دیسک صفر با ذخیره سازی شیء مقیاس پذیر ارزان قیمت ، با هزینه مواجهه با تأخیر تا یک ثانیه هنگام خواندن و نوشتن داده ها به یک ذخیره شیء ، به اقتصاد می رسند. خدمات

شرح تصویر

سیستم های جدید پایگاه داده از جمله Database SlatedB و Apache Horaedb DataBase از زمین با این معماری ساخته شده اند ، در حالی که سیستم های مستقر مانند Apache Doris و Starrocks آن را در سال 2024 به تصویب رسانده اند. سایر موتورهای واقعی مانند Automq و INFLUXDB 3.0 به طور فزاینده ای اتخاذ می کنند. الگوی دیسک صفر.

سایر تحولات قابل توجه دیگر

پس از حرکت Redis به یک مجوز اختصاصی در سال 2024 ، Valkey به عنوان یک جایگزین پیشرو در منبع باز ظاهر شد و در سال 2024 به عنوان اصلی ترین سیستم ذخیره سازی در Github تبدیل شد. ارائه دهندگان اصلی ابر آن را به سرعت پذیرفتند ، با این که Google آن را در MemoryStore و Amazon از طریق Elasticache پشتیبانی می کند. و خدمات MemoryDB.

سایر تحولات قابل توجه شامل ParadedB ، جایگزینی برای Elasticsearch ساخته شده بر روی موتور PostgreSQL و سیستم های جدید ذخیره سازی جریان ترکیبی مانند پروتون از TimePlus و Fluss معرفی شده توسط Ververica است. این سیستم ها با هدف ادغام ویژگی های جریان و OLAP با یک بنیاد ذخیره ستونی انجام می شوند.

2. پلت فرم دریاچه داده

مایکل استونزبیکر پیشگام پایگاه داده ، معماری Lakehouse و قالب های جدول باز را به عنوان “Archetype OLAP DBMS برای دهه آینده” تأیید می کند ، Data Lakehouse همچنان داغترین موضوع در مهندسی داده ها است.

منظره فرمت جدول باز در سال 2024 به طور قابل توجهی تکامل یافت. فرمت اصلی جدول باز ، آپاچی پائیمون از جوجه کشی فارغ التحصیل شد و قابلیت های خانه دریاچه را با ادغام آپاچی فلینک به ارمغان می آورد. Apache Xtable به عنوان یک پروژه جدید متمرکز بر تبدیل فرمت دو جهته ظاهر شد ، در حالی که Apache Amoro با چارچوب مدیریت Lakehouse خود وارد جوجه کشی شد.

در سال 2024 ، Apache Iceberg خود را به عنوان پروژه پیشرو در میان چارچوب های فرمت جدول باز ، متمایز با گسترش اکوسیستم و معیارهای مخزن GitHub ، از جمله تعداد بیشتری از ستاره ها ، چنگال ها ، درخواست های کشش و تعهدات ، تأسیس کرده است.

شرح تصویر

شرح تصویر

همه فروشندگان اصلی SaaS و Cloud در حال تقویت سیستم عامل های خود برای پشتیبانی از دسترسی به قالب های جدول باز هستند. با این حال ، پشتیبانی از نوشتن کمتر شیوع داشته است ، زیرا Apache Iceberg انتخابی برای ادغام جامع CRUD (ایجاد ، خواندن ، به روزرسانی ، حذف) است.

جداول مدیریت شده Biglake Google ، امکان جداول ICEBERG قابل تغییر در ذخیره سازی ابر مشتری ، جداول S3 تازه اعلام شده آمازون با پشتیبانی از یخبندان بومی و سایر ابزارهای مهم SaaS مانند Redpanda که موضوعات یخبندان را راه اندازی می کند و انبار داده های ترد که عمیقاً با Apache Icebebbge درج شده است ، می توان به معاینات اشاره کرد. از افزایش پذیرش و ادغام عمیق با کوه یخ در اکوسیستم.

به جلو فرمت های جدول جهانی مانند Apache Xtable و Delta Uniform (فرمت جهانی دریاچه دلتا) ممکن است در حرکت در واگرایی بالقوه ویژگی ها در قالب های مختلف با چالش های مهمی روبرو شوند ، و سرنوشت قالب های جدول باز ممکن است از قالب های پرونده باز آینه دار شود ، هنگامی که پارکت ظهور کرد به عنوان استاندارد de facto.

با افزایش اکوسیستم Lakehouse ، در حال رشد است ، پیش بینی می شود که اتخاذ استانداردها و چارچوبهای باز قابل تعامل در یک سکوی Lakehouse Open Data ، محبوبیت بیشتری کسب کند.

شرح تصویر

ظهور کتابخانه های قالب جدول بومی

روند جدیدی در اکوسیستم Lakehouse در حال ظهور است که بر توسعه کتابخانه های بومی در پایتون و زنگ زدگی متمرکز شده است. این کتابخانه ها با هدف دسترسی مستقیم به قالب های جدول باز بدون نیاز به چارچوب های سنگین مانند Spark ، هدف قرار می دهند.

نمونه های قابل توجه شامل Delta-Rs ، یک کتابخانه زنگ زدگی بومی برای دریاچه دلتا با اتصال پایتون است. HUDI-RS ، اجرای زنگ زدگی برای Apache Hudi با API Python و Pyiceberg ، یک کتابخانه در حال تحول پایتون که برای تقویت دسترسی به قالب جدول یخبندان در خارج از موتور پیش فرض جرقه طراحی شده است.

3. پردازش و ادغام داده ها

ظهور پردازش تک گره

ظهور پردازش تک گره نشان دهنده یک تغییر اساسی در پردازش داده ها است ، رویکردهای سنتی توزیع شده را به چالش می کشد.

تجزیه و تحلیل های اخیر نشان می دهد که بسیاری از شرکت ها نیازهای بزرگ خود را بیش از حد ارزیابی کرده اند و باعث ارزیابی مجدد الزامات پردازش داده های خود می شوند. حتی در سازمان هایی که دارای حجم داده های زیادی هستند ، تقریباً 90 ٪ از نمایش داده ها در اندازه بار کار قابل کنترل باقی می مانند تا روی یک دستگاه واحد اجرا شود و فقط داده های اخیر را اسکن می کند.

شرح تصویر

موتورهای پردازش تک گره مدرن ، مانند DuckDB ، Apache DataFusion و Polars ، به عنوان گزینه های قدرتمند ظاهر شده اند ، قادر به حمل بار کاری هستند که قبلاً نیاز به سیستم های توزیع شده مانند Hive/Tez ، Spark ، Presto یا Amazon Athena داشتند.

پردازش جریان

اکوسیستم پردازش جریان در سال 2024 به گسترش خود ادامه داد ، در حالی که Apache Flink موقعیت خود را به عنوان موتور جریان برتر تقویت می کند ، در حالی که Apache Spark موقعیت قوی خود را حفظ می کند.

شرح تصویر

Flink با جشن دهمین سالگرد خود ، نسخه 2.0 را منتشر کرد و اولین بروزرسانی بزرگ را از زمان اولین Flink 1.0 در هشت سال پیش آغاز کرد. اکوسیستم Apache Flink با معرفی فرمت جدول باز Apache Paimon و موتور پخش Fluss به تازگی باز شده به طور قابل توجهی گسترش یافت. در سال 2024 ، فروشندگان پیشرو Cloud به طور فزاینده ای در خدمات مدیریت شده خود یکپارچه شده اند ، که آخرین آن موتور BigQuery بدون سرور Google برای راه حل Apache Flink است.

موتورهای جریان در حال ظهور Fluvio ، Arroyo و Faststream هستند و در تلاشند تا با این مدعیان مستقر رقابت کنند. Fluvio و Arroyo به عنوان تنها موتورهای مبتنی بر زنگ زدگی که هدف آنها از بین بردن سربار است که به طور معمول با موتورهای سنتی پردازش جریان مبتنی بر JVM همراه است ، ایستادگی می کنند.

در اخبار اصلی جریان منبع باز ، ردپاندا benthos.dev را به دست آورد و آن را به عنوان Redpanda Connect و انتقال آن به مجوز اختصاصی تر تغییر داد. در پاسخ ، WARPSTREAM پروژه بنتوس را به دست آورد و آن را تغییر نام داد بنتو و متعهد به نگه داشتن آن 100 ٪ دارای مجوز MIT.

چارچوب های پردازش پایتون

در پردازش داده های پایتون ، اکوسیستم Polars در حال حاضر کتابخانه غالب با کارایی بالا برای بارهای مهندسی داده ها (به استثنای Pyspark) است. Polars در سال 2024 89 میلیون بارگذاری چشمگیر به دست آورد و با انتشار 1.0 خود یک نقطه عطف مهم را نشان داد.

با این حال ، Polars اکنون با رقابت از DATTAFRAME DACKDB روبرو است ، که توجه جامعه را با ادغام بسیار ساده خود با سیستم های ذخیره سازی خارجی و ادغام کپی صفر (به اشتراک گذاری مستقیم حافظه بین سیستم های مختلف) با Apache Arrow-که از نظر PLARS است ، جلب کرده است. هر دو كتابخانه در 1 ٪ برتر از كتابخانه های پایتون در سال گذشته قرار دارند.

Apache Arrow موقعیت خود را به عنوان استاندارد de facto برای نمایش داده های حافظه در اکوسیستم پردازش داده های پایتون تقویت کرده است. این چارچوب ادغام عمیقی با چارچوب های مختلف پردازش پایتون از جمله Apache DataFusion ، IBIS ، DAFT ، CUDF و PANDAS 3.0 ایجاد کرده است.

IBIS و DAFT سایر پروژه های نوآورانه DataFrame با پتانسیل بالا هستند. IBIS دارای یک رابط پشتی یکپارچه در پایگاه داده های مختلف مبتنی بر SQL است و DAFT قابلیت محاسبات توزیع شده را فراهم می کند ، که از زمین ساخته شده است تا از پردازش داده های توزیع شده توزیع شده پشتیبانی کند.

4. ارکستراسیون و داده های گردش کار

در سال 2025 ، دسته ارکستراسیون گردش کار منبع باز همچنان به عنوان یکی از پویاترین بخش های اکوسیستم مهندسی داده ها ، بیش از 10 پروژه فعال که از سیستم عامل های مستقر مانند Apache Airflow گرفته تا موتورهای تازه باز شده مانند Maestro Netflix است ، می ایستد.

شرح تصویر

پس از گذشت یک دهه Apache Airflow همچنان به عنوان موتور ارکستراسیون گردش کار مستقر و پذیرفته شده با بارگیری 320 متر حیرت انگیز در سال 2024 ، در حالی که با افزایش رقبا مانند داگستر ، بخشدار و کسترا روبرو است ، ادامه دارد.

شرح تصویر

جالب اینجاست که کسترا در سال 2024 بیشترین ستاره ها را در Github به دست آورد ، با افزایش مستقیم با اعلامیه بودجه 8 میلیون دلاری خود در ماه سپتامبر ، که در TechCrunch نمایش داده شد. از نظر فعالیت کد ، داگستر فعالیت توسعه چشمگیر را با یک تعهد چشمگیر 27K و نزدیک به درخواست های کشش 6K در سال 2024 نشان داد.

کیفیت داده ها

انتظارات عالی همچنان یک چارچوب پیشرو پایتون برای کیفیت داده ها و اعتبارسنجی نیز در 10 داده برتر Databrick و تولیدات AI در سال 2024 است که از نزدیک توسط سودا و پاندرا در عمل مهندسی داده ها دنبال می شود. با این حال ، خبرهای ناامید کننده ای وجود دارد: پروژه Data-DIFF توسط نگهدارنده اصلی آن ، DataFold در سال 2024 بایگانی شده است.

نسخه سازی داده ها

نسخه سازی داده ها در سال 2024 یک موضوع برجسته باقی مانده است ، زیرا تلاش ها همچنان قابلیت های سیستم های کنترل نسخه مدرن مانند GIT را به دریاچه های داده و خانه های دریاچه می رساند.

پروژه هایی مانند Lakefs و Nessie ، دریاچه های داده مدرن و قالب های میز باز مانند یخ کوه و دریاچه دلتا را با گسترش لایه های ابردادهای معامله ای خود تقویت می کنند.

تحول داده ها

دامنه استفاده از DBT برای تبدیل داده ها فراتر از تمرکز اصلی آن بر مدل سازی داده ها در سیستم های انبار داده است. اکنون از طریق ادغام های جدید و افزونه هایی که از موتورهای محاسباتی زودگذر مانند ترینو استفاده می کنند ، وارد محیط های خارج از انبار مانند دریاچه های داده می شوند.

در حال حاضر ، DBT در درجه اول از Sqlmesh با رقابت روبرو است. یک بخش برجسته قابل توجه در سال 2024 بحث SQLMESH در مقابل DBT بود که توسط مدیرعامل Tobiko برجسته شد ، که در رسانه های اجتماعی ادعا کرد که SQLMESH بسیار خوب است که از کنفرانس Coancece DBT ممنوع است!

5. ادغام داده ها

در فضای ادغام داده ها ، Airbyte موقعیت رهبری خود را حفظ کرد و با بستن درخواست های کشش 13K در آماده سازی برای نسخه 1.x ، به یک نقطه عطف چشمگیر دست یافت. چارچوب DLT با انتشار 1.0 آن بلوغ قابل توجهی را نشان داد ، در حالی که Apache Seatunnel به عنوان یک جایگزین قانع کننده کشش را به دست آورد.

شرح تصویر

چشم انداز چارچوب تغییر داده (CDC) با ابزارهای جدید از جمله Artie Transfer و Peerdb (به دست آمده توسط Clickhouse) تکامل یافته است ، در حالی که اتصالات CDC Flink که در بین سیستم عامل هایی که از Flink به عنوان موتور اصلی خود استفاده می کنند ، به دست می آورند.

مراکز رویداد (جریان میخانه/خدمات فرعی)
یکی از قابل توجه ترین نوآوری ها در فضای ادغام داده ها در سال 2024 از منظره در حال تحول در جریان داده است. یک تغییر قابل توجه معماری در این گروه ، جداسازی ذخیره و محاسبات است که همراه با پذیرش ذخیره شیء در یک معماری دیسک صفر است. Warpsteram پیشگام اجرای این معماری در فضای پخش در زمان واقعی است.

این مدل همچنین یک انعطاف پذیر استراتژی استقرار Cloud (BYOC) خود را امکان پذیر می کند ، زیرا می توان محاسبات و ذخیره سازی را در زیرساخت های ترجیحی مشتری میزبانی کرد ، در حالی که ارائه دهنده خدمات هواپیمای کنترل را حفظ می کند.

موفقیت WarpStream باعث شده است تا رقبای اصلی معماری مشابه را اتخاذ کنند. Redpanda موضوعات ابری را راه اندازی کرد و پیشنهادات خود را تقویت کرد ، در حالی که Automq یک رویکرد ترکیبی را با یک لایه ذخیره سریع برای بهبود عملکرد I/O پیاده سازی کرد.

علاوه بر این ، StreamNative موتور URSA را برای Apache Pulsar معرفی کرد ، و Confluent در سال 2024 از خوشه های حمل و نقل ابر بومی خود پرده برداشت. در همین حال ، آپاچی کافکا قابل توجه در چهارراهی ایستاده است که ممکن است جهت آینده آن را در اکوسیستم تعریف کند.

6. زیرساخت داده

چشم انداز زیرساخت داده ها در سال 2024 تا حد زیادی پایدار مانده است ، در حالی که Kubernetes در حالی که موقعیت خود را به عنوان موتور اصلی برنامه ریزی و مجازی سازی منابع در محیط های ابری حفظ می کند ، 10 سالگرد خود را جشن می گیرد.

در فضای مشاهده ، هجومید ، پرومتئوس و گرافانا تسلط خود را ادامه دادند ، در حالی که آزمایشگاه های گرافانا با تأمین بودجه قابل توجه 270 میلیون دلاری که باعث تقویت زنده ماندن طولانی مدت محصولات اصلی آنها مانند گرافانا به عنوان راه حل های قابل مشاهده با هدف عمومی می شود.

7. پلتفرم ML/AI

بانکهای اطلاعاتی وکتور از سال 2023 حرکت قوی داشتند و میلووس به عنوان یک رهبر در کنار Qdrant ، Chroma و Weaviate ظاهر شد. این گروه اکنون شامل ده پروژه فعال پایگاه داده وکتور است که نشان دهنده اهمیت روزافزون قابلیت های جستجوی بردار در معماری داده های مدرن AI است.

شرح تصویر

معرفی LLMOPS (همچنین به عنوان Genops نیز به عنوان Genops گفته می شود) در چشم انداز ارائه شده امسال با رشد سریع پروژه های جدید مانند Dify و VLLM که به طور هدفمند برای مدیریت مدل های LLM ساخته شده اند ، مشخص شده است.

8. مدیریت ابرداده

سیستم عامل های مدیریت ابرداده در سالهای اخیر حرکت قابل توجهی به دست آورده اند ، در حالی که Datahub از طریق توسعه فعال و تعامل جامعه ، فضای منبع باز را هدایت می کند.

با این حال ، قابل توجه ترین تحولات در سال 2024 در مدیریت کاتالوگ رخ داده است. در حالی که سال 2023 تحت سلطه رقابت در قالب های جدول باز بود ، سال 2024 آغاز جنگ کاتالوگ بود.

بر خلاف سالهای اولیه ، سال 2024 موجی از راه حل های جدید کاتالوگ باز را به بازار آورد ، از جمله Polaris (باز شده توسط Snowflake) ، کاتالوگ وحدت (باز شده توسط Databricks) ، LakeKeeper و Apache Gravitino.

این تکثیر این واقعیت را نشان می دهد که سیستم عامل های در حال ظهور داده های دریاچه ، که به شدت به قالب های جدول باز متکی هستند ، فاقد قابلیت های پیشرفته مدیریت کاتالوگ داخلی برای قابلیت تعامل چند موتوره یکپارچه هستند.

همه این پروژه ها این پتانسیل را دارند که استاندارد جدیدی را برای خدمات کاتالوگ فروشنده-آگنوستیک و باز در سیستم عامل های Lakehouse ایجاد کنند. دقیقاً مانند Hive Metastore به عنوان استاندارد de facto برای سیستم عامل های مبتنی بر Hadoop تبدیل شد ، این کاتالوگ های در حال ظهور ممکن است سرانجام جایگزین تسلط دیرینه Hive Metastore در مدیریت کاتالوگ در سیستم عامل های داده باز شود.

9. تجزیه و تحلیل و تجسم

در قلمرو اطلاعات تجاری منبع باز ، Apache Superset و Metabase راه حل های پیشرو BI هستند. در حالی که Superset منجر به محبوبیت GitHub می شود ، متاباز بالاترین فعالیت توسعه را نشان می دهد. LightDash به عنوان یک تازه وارد امیدوار کننده ظاهر شد و 11 میلیون دلار بودجه و نشان دهنده تقاضای بازار برای راه حل های سبک وزن BI را نشان داد.

شرح تصویر

راه حل های دو کد

Bi-as Code به عنوان یک دسته متمایز ظاهر شد ، که ناشی از موفقیت مداوم Streamlit است ، که موقعیت خود را به عنوان محبوب ترین راه حل Bi-as Code حفظ می کند.

این ابزارها توسعه دهندگان را قادر می سازد تا با استفاده از کد ، SQL و قالب هایی مانند Markdown یا YAML ، برنامه های تعاملی و داشبورد سبک وزن ایجاد کنند و قادر به ترکیب بهترین شیوه های مهندسی نرم افزار مانند کنترل نسخه ، آزمایش و CI/CD در گردش کار توسعه داشبورد هستند.

علاوه بر Streamlit و شواهد مشهور ، ورودی های جدید مانند Quary و Vizro کشش را به دست آورده اند ، و به طور خاص Quary یک رویکرد مبتنی بر زنگ زدگی را اجرا می کند که از هنجار پایتون محور این دسته دور می شود.

پشته BI آهنگسازی

تکامل تجزیه سیستم محدود به سیستم های ذخیره سازی نیست. همچنین بر پشته های هوش تجاری (BI) تأثیر گذاشته است. روند جدیدی در حال ظهور است که ترکیبی از ابزارهای سبک و بی انتها (که سرور پشتی ندارند) با راه حل های OLAP قابل تعبیه بدون سر مانند Apache DataFusion ، Apache Arrow و DuckDB ترکیب می شود.

این ادغام به چندین شکاف در پشته منبع باز مانند توانایی بومی در پرس و جو از دریاچه های داده های خارجی و خانه های دریاچه و در عین حال حفظ مزایای معماری های سبک وزن و تفکیک شده پرداخته است.

شرح تصویر

محصولات BI مانند Omni ، GoodData ، شواهد و Rilldata قبلاً این موتورها را در ابزارهای BI و اکتشاف داده خود گنجانیده اند. هر دو Apache Superset (با استفاده از کتابخانه موتور DuckDB) و متاباز اکنون از اتصالات DuckDB تعبیه شده پشتیبانی می کنند.

موتورهای پرس و جو MPP

دوران پس از هادوپ در حالی که موتورهای موجود همچنان به بلوغ خود ادامه می دهند ، نوآوری و معرفی سیستم های جدید MPP منبع باز (پردازش موازی) کمی وجود داشته است.

در حالی که سهم Hive در حال کاهش است ، Presto و Trino هنوز هم به عنوان موتورهای برتر MPP منبع باز استفاده شده در تولید باقی مانده اند ، علی رغم روبرو شدن با رقابت شدید Spark به عنوان یک موتور یکپارچه ، و محصولات Cloud MPP مانند Databricks ، Snowflake و AWS Redshift Spectrum Plus Athena را مدیریت می کنند.

چشم انداز و نتیجه گیری آینده

اکوسیستم داده های منبع باز در حال ورود به مرحله بلوغ در مناطق کلیدی مانند Data Lakehouse است که با ادغام پیرامون فن آوری های اثبات شده و افزایش تمرکز بر کارآیی عملیاتی مشخص می شود.

این منظره همچنان در حالی که در اطراف فن آوری های غالب استاندارد می شود ، به سمت معماری های سازنده ابر بومی و کامپوزیت تکامل می یابد. مناطق کلیدی برای تماشای عبارتند از:

  • ادغام بیشتر در فضای فرمت جدول باز
  • تکامل مداوم معماری های دیسک صفر در سیستم های واقعی و معامله ای
  • تلاش برای ارائه یک تجربه یکپارچه دریاچه
  • ظهور LLMOPS و مهندسی هوش مصنوعی
  • گسترش اکوسیستم Data Lakehouse در مناطقی مانند ادغام کاتالوگ باز و توسعه کتابخانه های بومی
  • کشش فزاینده پردازش داده های تک گره و تجزیه و تحلیل تعبیه شده

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا