برنامه نویسی

MapReduce بدون سرور برای اکسل: داده های بازاریابی خود را با AWS مقیاس کنید

مقدمه

MapReduce یک مدل برنامه نویسی برای پردازش مجموعه داده های بزرگ به طور موازی است. داده های ورودی را به تکه ها تقسیم می کند (نقشه) ، سپس نتایج ترکیب یا مصالح را ترکیب می کند (کاهش دادن).

  • نقشه: داده ها را در قسمت های کوچکتر تجزیه کنید.
  • shuffle/sort: داده های مرتبط با گروه.
  • کاهش: جمع یا ترکیب در نتایج نهایی.

بیایید یاد بگیریم الگوی کاهش نقشه با یک مثال در دنیای واقعی: معماری “MapReduce” بدون سرور “MapReduce” سرور برای تجزیه و تحلیل کمپین بازاریابی مبتنی بر اکسل.

1. بررسی اجمالی

اگر با برگه های اکسل پر از معیارهای بازاریابی (به عنوان مثال ، کمپین ها ، CPC ، درآمد) سر و کار دارید ، این AWS خط لوله بدون سرور به پردازش و جمع آوری داده ها به طور خودکار کمک می کند –به مدیریت خوشه ای لازم نیست.

مراحل کلیدی:

  1. بارگذاری اکسل: یک مدیر بازاریابی یک صفحه گسترده را به یک بار بارگذاری می کند آمازون S3 سطل
  2. نقشه لامبدا: هر سطر را تجزیه می کند (تاریخ ، کمپین ، منبع ، هزینه و غیره) و نتایج متوسط ​​را ذخیره می کند.
  3. LAMBDA را کاهش دهید: داده های جزئی را در گزارش نهایی برای تجزیه و تحلیل یا داشبورد جمع می کند.

2. جریان معماری

معماری AWS

  1. بارگذاری پرونده اکسل: مدیر بازاریابی یا یک فرآیند خودکار پرونده اکسل را در یک سطل S3بشر
  2. نقشه لامبدا: ناشی از یک رویداد S3. هر سطر را می خواند و تجزیه می کند ، و خروجی های جزئی را در آن ذخیره می کند S3بشر
  3. LAMBDA را کاهش دهید: ناشی از یک رویداد یا برنامه بعدی. تمام نتایج جزئی را جمع آوری می کند ، آنها را جمع می کند و گزارش نهایی را به آن می نویسد S3 یا یک پایگاه دادهبشر

3. گام به گام

نمودار توالی

  1. کاربر بارگذاری می کند پرونده اکسل با داده های بازاریابی به سطل S3بشر
  2. نقشه لامبدا توسط رویداد S3، هر سطر را پردازش می کند و داده های میانی را ذخیره می کند.
  3. لامبدا را کاهش دهید جمع آوری داده ها در منابع مختلف بازاریابی در یک گزارش نهاییبشر
  4. گزارش پردازش شده را می توان در آن ذخیره کرد S3 یا برای تجسمبشر

4. مزایای کلیدی

بدون سرور: هیچ سرور یا خوشه ای برای نگهداری وجود ندارد.

مقرون به صرفه: فقط پرداخت کنید اجرای لامبدا و حداقل استفاده از S3بشر

مصرف خودکار داده ها: هنگامی که یک فایل اکسل بارگذاری می شود ، محرک است.

معماری جدا شده: به راحتی هر مرحله را اصلاح یا گسترش دهید.

5. مراحل بعدی

  • اضافه کردن اعتبار سنجی/رسیدگی به خطا در مرحله “نقشه” برای ستون های گمشده یا داده های نامعتبر.
  • اجرا اعلان ها (به عنوان مثال ، ایمیل یا slack) هنگام تولید گزارش های نهایی.
  • ادغام با ابزارهای داشبورد (به عنوان مثال ، شیوع) برای تجسم معیارهای بازاریابی جمع شده.

6. مثال جریان تحول

در زیر یک مثال ساده از چگونگی یک ردیف واحد از پرونده اکسل آورده شده است دگرگون شده در طول مرحله نقشه، و سپس در کاهش مرحلهبشر

🔹 ردیف ورودی اکسل

اکسل ورودی

🔹 خروجی نقشه (json متوسط)

{
  "date": "2025-01-07",
  "campaign": "WinterSales",
  "source": "Google AD",
  "impressions": 19394975,
  "clicks": 3878995,
  "cost": 8533789,
  "orders": 46935900,
  "revenue": 89216885,
  "cpc": 2.2
}
حالت تمام صفحه را وارد کنید

از حالت تمام صفحه خارج شوید

📂 (این ممکن است در یک مسیر S3/{تاریخ}/کمپین/کمپین ذخیره شود.)

step مرحله را کاهش دهید
اگر چندین ورودی برای همان تاریخ و کمپین وجود داشته باشد (به عنوان مثال ، منابع مختلفی مانند سئو ، اجتماعی و غیره) ، کاهش لامبدا مقادیر جمع آوری یا جمع را در تمام خروجی های جزئی جمع می کند.

🔹 مثال گزارش اکسل نهایی

Date,Campaign,TotlImpressions,TotalClicks,TotalCost,TotalOrders,TotalRevenue
2025-02-07,WinterSale,30000,500,340.0,16,1120.0
حالت تمام صفحه را وارد کنید

از حالت تمام صفحه خارج شوید

(در اینجا ، ما داده های AdWords ، SEO و منابع دیگر را برای Wintersale در 2025-02-07 ترکیب کردیم.)

7. چرا فقط برای تحول داده از اکسل استفاده نمی کنیم؟

برای کارهای داده کوچک و موقت ، اکسل کار می کند. اما یک رویکرد بدون سرور بدون سرور ایده آل است:

🚀 نیاز به تحولات مداوم در پرونده های متعدد یا به روزرسانی دارد.
📈 نیاز به مقیاس پذیری (مجموعه داده های بزرگ Excel و محدودیت داده های خطر).
📊 می خواهید با داشبورد ، اعلان ها یا خطوط لوله داده دیگر ادغام کنید.
control کنترل نسخه Value و فرآیندهای قابل تکرار و خودکار.

8. در مورد چسب AWS چطور؟

🔹 چسب AWS
یک سرویس ETL کاملاً مدیریت شده ، ساخته شده در Apache Spark.
✅ عالی برای داده های بزرگ و تحولات پیچیده.
✅ کشف طرحواره و مقیاس خودکار.
❌ بیشتر از راه حل های مبتنی بر لامبدا.

map MapReduce مبتنی بر لامبدا
🚀 سبک و مقرون به صرفه برای مجموعه داده های کوچک به متوسط.
✅ تنظیم ساده تر برای پردازش اکسل مکرر و ساختاری.
✅ شما منطق تحول را کاملاً کنترل می کنید.

خط پایین:
اگر مجموعه داده های شما بسیار زیاد است یا به ویژگی های پیشرفته ETL احتیاج دارید ، چسب AWS بهتر است.
برای مشاغل سبک تر و بدون سرور ، یک رویکرد MapReduce مبتنی بر لامبدا ساده تر و ارزان تر است.

💡 آیا می خواهید یک آموزش در مورد استقرار این معماری گام به گام داشته باشید؟ یک نظر را رها کنید!
🚀 مرا برای AWS و محتوای مهندسی داده بیشتر دنبال کنید!

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا