برنامه نویسی

معماری داده ها پشته – جامعه dev

سلام همه ،

پشته فعلی من داده هایی است که به عنوان یک سیستم رویداد به Pub/Sub (GCP) می آیند. این شامل داده های رویداد جریان در مقیاس هزاران هر 5 دقیقه است.

من همچنین یک میز اطلاعاتی در BigQuery دارم که تمام اطلاعات فوق داده برای آن وقایع است. رویدادهای PubSub و جدول BQ یک کلید مشترک مشترک را به اشتراک می گذارند. با این حال جدول ابرداده حدود 3 میلیارد ردیف است. من یک برنامه کاربردی دارم که معیارهای زمان واقعی را بر اساس داده های پیوسته (در Clickhouse) از طریق API بازگرداند. ما به ابرداده ای که به آن پیوسته ایم نیاز داریم زیرا این گروه توسط کلیدی برای تجمع در صورت تقاضا است

راه اندازی فعلی من PubSubs به GCS به Clikchouse و سپس BQ به GCS برای Clickhouse و در Clickhouse وقایع دریافتی با نمای مادی غنی می شود. با این حال با توجه به اندازه جدول ابرداده ، هر یک از نمایش های دیدنی بسیار طولانی است و هزینه زیادی نیز دارد.

آیا ابزار/راه حل دیگری وجود دارد که می توانم برای این مورد استفاده کنم (اگر چیزی در GCP باشد – شگفت انگیز)

هر اشتباهی که من مرتکب می شوم زیرا Clickhouse Join در اینجا اجرا نمی شود (با استفاده از DICT نیز سعی شده است) اما کلیدهای زیادی برای پیوستن وجود دارد (بیشتر آنها بی فایده)

آیا باید از یک مدل داده دیگر برای Pub/Sub Event استفاده کنم یعنی همه ابرداده را در آنجا فشار دهم؟ اما هر بار که ستون های ابرداده جدیدی را اضافه می کنیم (که مکرر است) این مسئله به عقب برگشتی می دهد.

از هر کمکی قدردانی می شود

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا