برنامه نویسی

فراداده Amazon S3 را کشف کنید: روشی جدید برای کاوش فضای ذخیره سازی خود در AWS re:Invent 2024

Summarize this content to 400 words in Persian Lang
خدمات وب آمازون (AWS) با یک ویژگی پیشگامانه که در AWS re:Invent 2024 معرفی شد، یک بار دیگر ذخیره سازی و مدیریت داده را متحول کرده است: فراداده آمازون S3. این افزوده جدید به سرویس ذخیره سازی ساده آمازون (S3) نحوه تعامل و تجزیه و تحلیل ابرداده اشیاء S3 خود را ساده می کند و به کسب و کارها برای ساده کردن گردش کار و افزایش بینش داده ها قدرت می دهد.

در اینجا همه چیزهایی است که باید در مورد این ویژگی جدید قدرتمند بدانید.

چالش مقیاس

سازمان‌هایی که از آمازون S3 استفاده می‌کنند اغلب با مجموعه‌های داده عظیم – میلیاردها یا حتی تریلیون‌ها شی در یک سطل سر و کار دارند. شناسایی اشیاء خاص بر اساس ویژگی هایی مانند اندازه، برچسب ها یا الگوهای موجود در کلید آنها کار آسانی نیست. از لحاظ تاریخی، کسب‌وکارها مجبور بودند سیستم‌های سفارشی را برای مدیریت و پرس‌وجو ابرداده‌ها بسازند، که می‌توانستند پیچیده، مقیاس‌پذیری سخت و مستعد عدم هماهنگی با داده‌های واقعی باشند.

ابرداده آمازون S3 چیست؟

Amazon S3 Metadata را معرفی می کند ضبط خودکار فراداده برای اشیاء ذخیره شده در سطل S3. این ابرداده در میزهای کوه یخی آپاچی، امکان سازگاری با ابزارهایی مانند:

آمازون آتنا
آمازون Redshift
آمازون QuickSight
آپاچی اسپارک

با استفاده از این ابزارها، می‌توانید پرس‌وجوهای مقیاس‌پذیر را بر روی ابرداده‌ها انجام دهید تا اشیاء مورد علاقه را به طور موثر پیدا کنید، چه برای تجزیه و تحلیل، پردازش داده یا آموزش هوش مصنوعی.

عناصر فراداده غنی

طرحواره ابرداده شامل بیش از 20 عنصر است، مانند:

نام سطل و کلید شی

زمان ایجاد/تغییر
کلاس ذخیره سازی
جزئیات رمزگذاری
برچسب های شی
فراداده کاربر

علاوه بر این، این ویژگی از ذخیره ابرداده های خاص برنامه در جداول جداگانه برای پرس و جوهای پیشرفته پشتیبانی می کند.

چگونه کار می کند؟

1. Metadata Capture را فعال کنید

برای شروع، یک سطل و جدول برای ذخیره ابرداده خود تعیین کنید. هر زمان که اشیاء ایجاد، اصلاح یا حذف شوند، به‌روزرسانی‌های ابرداده به‌طور خودکار ثبت می‌شوند. هر به روز رسانی شامل:

نوع رکورد: ایجاد، به روز رسانی، یا حذف

شماره دنباله: سوابق تاریخی را دنبال می کند

مهر زمانی: زمان های اصلاح را ضبط کنید

2. فراداده را بدون زحمت جستجو کنید

با استفاده از ابزارهای سازگار با Iceberg، فراداده را برای بازیابی اطلاعاتی مانند:

اشیایی که در یک بازه زمانی خاص آپلود می شوند
اشیایی که با یک برچسب یا الگوی کلیدی خاص مطابقت دارند
فیلترهای مبتنی بر اندازه برای بهینه سازی هزینه های ذخیره سازی

ابرداده پیش فرض S3:

به طور پیش فرض، S3 Metadata سه نوع ابرداده را ارائه می دهد:

1- فراداده های تعریف شده توسط سیستم، مانند زمان ایجاد یک شی و کلاس ذخیره سازی

2- فراداده های سفارشی، مانند برچسب ها و ابرداده های تعریف شده توسط کاربر که در هنگام آپلود شی گنجانده شده اند.

3- ابرداده رویداد، مانند زمانی که یک شی به روز یا حذف می شود و حساب AWS که درخواست را داده است.

نحوه کار جداول فراداده

آمازون S3 کنترل جداول ابرداده را به عهده می گیرد و از دقت و عملکرد آنها اطمینان می یابد. در اینجا چیزی است که آنها را متمایز می کند:

فقط خواندنی برای یکپارچگی: جداول فراداده به طور کامل توسط آمازون S3 مدیریت می شوند و برای همه اصول IAM فقط خواندنی هستند. این تضمین می کند که آنها همیشه وضعیت دقیق سطل شما را منعکس می کنند. در صورت نیاز می توانید جداول فراداده خود را حذف کنید، اما نمی توانید مستقیماً آنها را تغییر دهید.

تعمیر و نگهداری خودکار: آمازون S3 به طور دوره ای فعالیت های تعمیر و نگهداری، مانند فشرده سازی فایل ها و حذف فایل های بدون مرجع را انجام می دهد. این فرآیندهای خودکار کمک می کنند:

🔧 عملکرد پرس و جو را بهینه کنید.

💰 هزینه های ذخیره سازی جداول ابرداده را به حداقل برسانید.

هیچ تلاشی لازم نیست: این تعمیر و نگهداری به صورت خودکار انجام می شود—نیازی به تنظیمات یا تنظیمات دستی نیست. با این حال، اگر نیاز به سفارشی‌سازی باشد، می‌توانید این فعالیت‌ها را پیکربندی کنید.

مثال عملی

در اینجا نحوه فعال کردن و جستجوی فراداده در چند مرحله ساده آمده است:

مرحله 1: یک سطل جدول ایجاد کنید

aws s3tables create-table-bucket –name my-metadata-bucket –region us-west-1

وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

مرحله 2: پیکربندی Metadata Capture

یک فایل پیکربندی JSON را آماده کنید:

{
“S3TablesDestination”: {
“TableBucketArn”: “arn:aws:s3tables:us-west-1:123456789012:bucket/my-metadata-bucket”,
“TableName”: “my_s3_metadata_table”
}
}

وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

و این پیکربندی را به سطل داده خود وصل کنید:

aws s3api create-bucket-metadata-table-configuration \
–bucket my-data-bucket \
–metadata-table-configuration file://config.json \
–region us-west-1

وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

مرحله 3: Query Metadata

استفاده از آپاچی اسپارک

spark-submit \
–packages org.apache.iceberg:iceberg-spark-runtime-3.4_2.12:1.6.0 \
–conf “spark.sql.catalog.mytablebucket=org.apache.iceberg.spark.SparkCatalog” \
–conf “spark.sql.catalog.mytablebucket.warehouse=s3://my-metadata-bucket” \
query.py

وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

چرا اهمیت دارد

با Amazon S3 Metadata، AWS پیچیدگی سیستم های فراداده سفارشی را حذف می کند. اکنون، شما می توانید:
قابلیت کشف داده ها را برای حجم کاری تحلیلی و هوش مصنوعی افزایش دهید.
یک نمای مقیاس پذیر و هماهنگ از اشیاء S3 خود را حفظ کنید.
انطباق و ممیزی را با ردیابی ابرداده غنی شده ساده کنید.

منابع بیشتر

من را دنبال کنید:لینکدین.

خدمات وب آمازون (AWS) با یک ویژگی پیشگامانه که در AWS re:Invent 2024 معرفی شد، یک بار دیگر ذخیره سازی و مدیریت داده را متحول کرده است: فراداده آمازون S3. این افزوده جدید به سرویس ذخیره سازی ساده آمازون (S3) نحوه تعامل و تجزیه و تحلیل ابرداده اشیاء S3 خود را ساده می کند و به کسب و کارها برای ساده کردن گردش کار و افزایش بینش داده ها قدرت می دهد.

در اینجا همه چیزهایی است که باید در مورد این ویژگی جدید قدرتمند بدانید.


چالش مقیاس

سازمان‌هایی که از آمازون S3 استفاده می‌کنند اغلب با مجموعه‌های داده عظیم – میلیاردها یا حتی تریلیون‌ها شی در یک سطل سر و کار دارند. شناسایی اشیاء خاص بر اساس ویژگی هایی مانند اندازه، برچسب ها یا الگوهای موجود در کلید آنها کار آسانی نیست. از لحاظ تاریخی، کسب‌وکارها مجبور بودند سیستم‌های سفارشی را برای مدیریت و پرس‌وجو ابرداده‌ها بسازند، که می‌توانستند پیچیده، مقیاس‌پذیری سخت و مستعد عدم هماهنگی با داده‌های واقعی باشند.


ابرداده آمازون S3 چیست؟

Amazon S3 Metadata را معرفی می کند ضبط خودکار فراداده برای اشیاء ذخیره شده در سطل S3. این ابرداده در میزهای کوه یخی آپاچی، امکان سازگاری با ابزارهایی مانند:

  • آمازون آتنا
  • آمازون Redshift
  • آمازون QuickSight
  • آپاچی اسپارک

با استفاده از این ابزارها، می‌توانید پرس‌وجوهای مقیاس‌پذیر را بر روی ابرداده‌ها انجام دهید تا اشیاء مورد علاقه را به طور موثر پیدا کنید، چه برای تجزیه و تحلیل، پردازش داده یا آموزش هوش مصنوعی.

عناصر فراداده غنی

طرحواره ابرداده شامل بیش از 20 عنصر است، مانند:

  • نام سطل و کلید شی
  • زمان ایجاد/تغییر
  • کلاس ذخیره سازی
  • جزئیات رمزگذاری
  • برچسب های شی
  • فراداده کاربر

علاوه بر این، این ویژگی از ذخیره ابرداده های خاص برنامه در جداول جداگانه برای پرس و جوهای پیشرفته پشتیبانی می کند.


چگونه کار می کند؟

1. Metadata Capture را فعال کنید

برای شروع، یک سطل و جدول برای ذخیره ابرداده خود تعیین کنید. هر زمان که اشیاء ایجاد، اصلاح یا حذف شوند، به‌روزرسانی‌های ابرداده به‌طور خودکار ثبت می‌شوند. هر به روز رسانی شامل:

  • نوع رکورد: ایجاد، به روز رسانی، یا حذف
  • شماره دنباله: سوابق تاریخی را دنبال می کند
  • مهر زمانی: زمان های اصلاح را ضبط کنید

توضیحات تصویر

2. فراداده را بدون زحمت جستجو کنید

با استفاده از ابزارهای سازگار با Iceberg، فراداده را برای بازیابی اطلاعاتی مانند:

  • اشیایی که در یک بازه زمانی خاص آپلود می شوند
  • اشیایی که با یک برچسب یا الگوی کلیدی خاص مطابقت دارند
  • فیلترهای مبتنی بر اندازه برای بهینه سازی هزینه های ذخیره سازی

ابرداده پیش فرض S3:

  • به طور پیش فرض، S3 Metadata سه نوع ابرداده را ارائه می دهد:

1- فراداده های تعریف شده توسط سیستم، مانند زمان ایجاد یک شی و کلاس ذخیره سازی

2- فراداده های سفارشی، مانند برچسب ها و ابرداده های تعریف شده توسط کاربر که در هنگام آپلود شی گنجانده شده اند.

3- ابرداده رویداد، مانند زمانی که یک شی به روز یا حذف می شود و حساب AWS که درخواست را داده است.


نحوه کار جداول فراداده

آمازون S3 کنترل جداول ابرداده را به عهده می گیرد و از دقت و عملکرد آنها اطمینان می یابد. در اینجا چیزی است که آنها را متمایز می کند:

  • فقط خواندنی برای یکپارچگی: جداول فراداده به طور کامل توسط آمازون S3 مدیریت می شوند و برای همه اصول IAM فقط خواندنی هستند. این تضمین می کند که آنها همیشه وضعیت دقیق سطل شما را منعکس می کنند. در صورت نیاز می توانید جداول فراداده خود را حذف کنید، اما نمی توانید مستقیماً آنها را تغییر دهید.

  • تعمیر و نگهداری خودکار: آمازون S3 به طور دوره ای فعالیت های تعمیر و نگهداری، مانند فشرده سازی فایل ها و حذف فایل های بدون مرجع را انجام می دهد. این فرآیندهای خودکار کمک می کنند:

    • 🔧 عملکرد پرس و جو را بهینه کنید.
    • 💰 هزینه های ذخیره سازی جداول ابرداده را به حداقل برسانید.
  • هیچ تلاشی لازم نیست: این تعمیر و نگهداری به صورت خودکار انجام می شود—نیازی به تنظیمات یا تنظیمات دستی نیست. با این حال، اگر نیاز به سفارشی‌سازی باشد، می‌توانید این فعالیت‌ها را پیکربندی کنید.


مثال عملی

در اینجا نحوه فعال کردن و جستجوی فراداده در چند مرحله ساده آمده است:

مرحله 1: یک سطل جدول ایجاد کنید

aws s3tables create-table-bucket --name my-metadata-bucket --region us-west-1
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

مرحله 2: پیکربندی Metadata Capture

یک فایل پیکربندی JSON را آماده کنید:

{
  "S3TablesDestination": {
    "TableBucketArn": "arn:aws:s3tables:us-west-1:123456789012:bucket/my-metadata-bucket",
    "TableName": "my_s3_metadata_table"
  }
}

وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

و این پیکربندی را به سطل داده خود وصل کنید:

aws s3api create-bucket-metadata-table-configuration \
  --bucket my-data-bucket \
  --metadata-table-configuration file://config.json \
  --region us-west-1
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

مرحله 3: Query Metadata

استفاده از آپاچی اسپارک

spark-submit \
  --packages org.apache.iceberg:iceberg-spark-runtime-3.4_2.12:1.6.0 \
  --conf "spark.sql.catalog.mytablebucket=org.apache.iceberg.spark.SparkCatalog" \
  --conf "spark.sql.catalog.mytablebucket.warehouse=s3://my-metadata-bucket" \
  query.py
وارد حالت تمام صفحه شوید

از حالت تمام صفحه خارج شوید

چرا اهمیت دارد

  • با Amazon S3 Metadata، AWS پیچیدگی سیستم های فراداده سفارشی را حذف می کند. اکنون، شما می توانید:

  • قابلیت کشف داده ها را برای حجم کاری تحلیلی و هوش مصنوعی افزایش دهید.

  • یک نمای مقیاس پذیر و هماهنگ از اشیاء S3 خود را حفظ کنید.

  • انطباق و ممیزی را با ردیابی ابرداده غنی شده ساده کنید.

منابع بیشتر

من را دنبال کنید:
لینکدین.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا