برنامه نویسی

یکپارچه سازی داده ها: Google BigQuery با Mage

وبلاگ مهمان توسط شاشنک میشرا، مهندس داده @ Expedia

TLDR

این مقاله یکپارچگی بین Mage و Google BigQuery، یک سرویس انبار داده بدون سرور را تشریح می‌کند. ما در مورد فرآیند یکپارچه سازی، مزایای آن، و چگونگی کمک به کسب و کارها در تصمیم گیری های مبتنی بر داده بحث خواهیم کرد.

طرح کلی

  • مقدمه ای بر Mage
  • نمای کلی Google BigQuery
  • فرآیند گام به گام برای ادغام Google BigQuery با Mage
  • نتیجه

مقدمه ای بر Mage

در عصری که داده ها نفت جدید هستند، ابزارهای مدیریت داده کارآمد و قابل اعتماد ضروری هستند. Mage یک پلتفرم متعهد به ساده سازی یکپارچه سازی داده ها و تجزیه و تحلیل است. Mage که برای تبدیل و بارگذاری یکپارچه داده طراحی شده است، نحوه رویکرد کسب و کارها به مدیریت داده را تغییر می دهد. در اینجا ویژگی های کلیدی آن آمده است:

  • خط لوله داده خودکار: Mage فرآیندهای استخراج، تبدیل و بارگذاری داده ها (ETL) را خودکار می کند. می‌تواند داده‌ها را از منابع متعدد استخراج کند، آن‌ها را به فرمت مطلوب تبدیل کند و در انبار داده بارگذاری کند.
  • اتصال دهنده های داده: Mage اتصالات داده های مختلفی را به منابع داده پرمصرف مانند Shopify، Facebook Ads، Google Ads، Google Analytics و غیره ارائه می دهد. این کار واردات داده ها از این پلتفرم ها را آسان تر می کند.
  • ادغام آسان: Mage ادغام آسان با انبارهای داده محبوب از جمله Google BigQuery، Amazon Redshift و Snowflake را فراهم می کند.
  • مدل های SQL از پیش ساخته شده: Mage با مدل های SQL از پیش ساخته شده برای پلتفرم های تجارت الکترونیک محبوب مانند Shopify و WooCommerce ارائه می شود. این مدل ها فرآیند تجزیه و تحلیل داده ها را ساده می کنند.
  • بارگذاری افزایشی: Mage از بارگذاری افزایشی پشتیبانی می کند، به این معنی که فقط داده های جدید یا به روز شده در انبار داده بارگیری می شوند. این باعث صرفه جویی در فضای ذخیره سازی و بهبود کارایی می شود.
  • تبدیل داده ها: Mage تبدیل خودکار داده ها را انجام می دهد و داده های خام را به فرمت قابل استفاده تر تبدیل می کند. این فرآیند داده ها را برای تجزیه و تحلیل و گزارش آماده می کند.
  • به روز رسانی برنامه ریزی شده: به روز رسانی داده ها را می توان در Mage برنامه ریزی کرد تا اطمینان حاصل شود که داده های انبار همیشه به روز هستند.
  • امنیت داده ها: Mage تاکید زیادی بر امنیت داده ها، تضمین حریم خصوصی داده ها و انطباق با GDPR و سایر مقررات حفاظت از داده ها دارد.


توضیحات تصویر (منبع: Giphy)

نمای کلی Google BigQuery

Google BigQuery یک انبار داده بسیار مقیاس پذیر و بدون سرور است که توسط Google به عنوان بخشی از Google Cloud Platform (GCP) ارائه می شود. این برای ساده سازی و ساده سازی پردازش داده های بزرگ طراحی شده است.

  • معماری بدون سرور: BigQuery بر روی یک مدل بدون سرور کار می کند، به این معنی که کاربران نیازی به مدیریت هیچ سرور یا زیرساختی ندارند. این بدان معنی است که شما می توانید بیشتر روی تجزیه و تحلیل تمرکز کنید و کمتر روی تعمیر و نگهداری. این امکان را به شما می دهد تا مجموعه داده های عظیم را در چند ثانیه جستجو کنید و بینش را در زمان واقعی دریافت کنید، بدون نیاز به نگرانی در مورد تامین منابع.
  • تجزیه و تحلیل زمان واقعی: BigQuery برای تجزیه و تحلیل بلادرنگ مهندسی شده است. این به کاربران اجازه می دهد تا جریان داده های بلادرنگ را فورا تجزیه و تحلیل کنند. با توانایی خود در اجرای پرس و جوهای SQL بر روی پتابایت داده، نتایج سریعی را در تجزیه و تحلیل داده های بلادرنگ ارائه می دهد و به کسب و کارها امکان می دهد تصمیمات به موقع بگیرند.

Google BigQuery، با معماری بدون سرور و تجزیه و تحلیل بلادرنگ، به عنوان یک پلتفرم قوی برای مدیریت، تجزیه و تحلیل و به دست آوردن بینش از مجموعه داده های عظیم به راحتی عمل می کند.


توضیحات تصویر (منبع: Giphy)

فرآیند گام به گام انتقال Google BigQuery با Mage

قبل از شروع، باید یک کلید حساب سرویس ایجاد کنیم. لطفاً اسناد Google Cloud را در مورد نحوه ایجاد آن بخوانید.

پس از اتمام کار، این مراحل را دنبال کنید:

  1. یک خط لوله جدید ایجاد کنید یا یک خط لوله موجود را باز کنید.
  2. برای مشاهده مرورگر فایل، سمت چپ صفحه را باز کنید.
  3. به پایین بروید و روی فایلی به نام کلیک کنید io_config.yaml
  4. کلیدها و مقادیر زیر را زیر کلیدی به نام پیش‌فرض وارد کنید (می‌توانیم چندین نمایه داشته باشیم، آن را به هر کدام که برای ما مرتبط است اضافه کنیم)
  5. توجه: فقط باید کلیدهای زیر را اضافه کنیم GOOGLE_SERVICE_ACC_KEY یا مقدار برای کلید GOOGLE_SERVICE_ACC_KEY_FILEPATH (هر دو به طور همزمان مورد نیاز نیستند).
version: 0.1.1
default:
  GOOGLE_SERVICE_ACC_KEY:
    type: service_account
    project_id: project-id
    private_key_id: key-id
    private_key:
      "-----BEGIN PRIVATE KEY-----\nyour_private_key\n-----END_PRIVATE_KEY"
    client_email: your_service_account_email
    auth_uri: "https://accounts.google.com/o/oauth2/auth"
    token_uri: "https://accounts.google.com/o/oauth2/token"
    auth_provider_x509_cert_url: "https://www.googleapis.com/oauth2/v1/certs"
    client_x509_cert_url: 
"https://www.googleapis.com/robot/v1/metadata/x509/your_service_account_email"
  GOOGLE_SERVICE_ACC_KEY_FILEPATH: "/path/to/your/service/account/key.json"
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

استفاده از بلوک SQL

  1. یک خط لوله جدید ایجاد کنید یا یک خط لوله موجود را باز کنید.
  2. یک لودر داده، ترانسفورماتور یا بلوک صادرکننده داده اضافه کنید.
  3. انتخاب کنید SQL.
  4. زیر ارائه دهنده داده کشویی، انتخاب کنید BigQuery
  5. زیر مشخصات کشویی، انتخاب کنید پیش فرض (یا نمایه ای که اعتبارنامه را در زیر آن اضافه کرده ایم).
  6. کنار پایگاه داده برچسب، نام پایگاه داده ای را که می خواهیم این بلوک داده ها را در آن ذخیره کند، وارد کنید.
  7. کنار ذخیره در طرحواره برچسب، نام طرحی را که می خواهیم این بلوک داده ها را در آن ذخیره کند، وارد کنید.
  8. زیر خط مشی بنویس کشویی، انتخاب کنید جایگزین کردن یا ضمیمه (لطفاً برای اطلاعات بیشتر در مورد سیاست های نوشتن، راهنمای بلوک های SQL را ببینید).
  9. در این عبارت آزمایشی وارد کنید: انتخاب 1
  10. بلوک را اجرا کنید.

استفاده از بلوک پایتون

  1. یک خط لوله جدید ایجاد کنید یا یک خط لوله موجود را باز کنید.
  2. یک بارگذار داده، ترانسفورماتور، یا بلوک صادرکننده داده اضافه کنید (قطعه کد زیر برای بارگذار داده است).
  3. انتخاب کنید عمومی (بدون الگو).
  4. این قطعه کد را وارد کنید (توجه: تغییر دهید config_profile از پیش فرض اگر نمایه دیگری داشته باشیم):
from mage_ai.data_preparation.repo_manager import get_repo_path
from mage_ai.io.bigquery import BigQuery
from mage_ai.io.config import ConfigFileLoader
from os import path
from pandas import DataFrame
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

if 'data_loader' not in globals():
    from mage_ai.data_preparation.decorators import data_loader
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

@data_loader
def load_data_from_big_query(**kwargs) -> DataFrame:
    query = 'SELECT 1'
    config_path = path.join(get_repo_path(), 'io_config.yaml')
    config_profile="default"
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

    return BigQuery.with_config(ConfigFileLoader(config_path, config_profile)).load(query)
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

  1. بلوک را اجرا کنید.


توضیحات تصویر (منبع: Giphy)

نتیجه

ادغام Mage با Google BigQuery ترکیبی قدرتمند از مدیریت خط لوله داده خودکار و انبارداری قوی داده را برای تیم شما فراهم می کند. این مشارکت نه تنها استخراج، تبدیل و بارگذاری داده ها را ساده می کند، بلکه مسیری یکپارچه برای تجزیه و تحلیل داده ها و تولید بینش فراهم می کند. همانطور که در این راهنمای گام به گام نشان داده‌ایم، فرآیند یکپارچه‌سازی ساده است و آن را به گزینه‌ای در دسترس برای مشاغل در هر اندازه تبدیل می‌کند. با استفاده از این ادغام، می توانید پتانسیل کامل داده های خود را باز کنید، عملیات را ساده کنید و تصمیمات مبتنی بر داده را هدایت کنید.

پیوند به وبلاگ اصلی: https://www.mage.ai/blog/data-integration-google-bigquery-with-mage

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا