برنامه نویسی

مقدمه ای بر پیش پردازش داده ها با استفاده از تشخیص کمی احساسات

این وبلاگ در ابتدا در https://ziro2mach.com وبلاگ یادگیری ماشینی من ارسال شد

شاید تنها چیزی که در مورد یادگیری ماشینی مهمتر از یادگیری ماشینی است این باشد پیش پردازش داده ها 🙃

به این دلیل که قبل از یادگیری ماشین تعریف شده است:

~ علم ~ ریاضی از گرفتن اطلاعات دنیای واقعی، تبدیل آن به اعداد و سپس ~پیدا کردن~ یادگیری الگویی از آن

و اطلاعات بیرون در دنیای واقعی به همراه آن، تن از سر و صدا

به عنوان یک مدافع یادگیری با کثیف کردن دستان خود، در اینجا یک مثال آورده شده است

چیزی به نام وجود دارد دایره راسل

تمام متن
چیزی که کمک می کند کمیت کردن احساسات

زیرا الگوریتم های ML یاد می گیرند بهترین زمانی که داده هایی که با آن کار می کنند است اعداد پیوسته به جای داده های طبقه بندی رمزگذاری شده سنتی مانند

1686759060 751 مقدمه ای بر پیش پردازش داده ها با استفاده از

در حالی که داده های طبقه بندی شده نشان دهنده اعداد، ارزش عددی یک کلاس است همیشه نشان دهنده شدت یک احساس، در حالی که مدل راسل به شما یک فعال سازی و یک خوشایند بودن ارزشی که قبلاً شدت یک احساس است

فرض کنید یک مجموعه داده با پارامترهایی که به دنبال آن هستیم پیدا می کنیم

1686759060 993 مقدمه ای بر پیش پردازش داده ها با استفاده از

اینجا ستون عکس نشان دهنده یک آرایه سه بعدی از مقادیر پیکسل قرمز، سبز و آبی از یک تصویر حاوی یک احساس است و بقیه کاملاً مستقیم هستند.

1686759060 181 مقدمه ای بر پیش پردازش داده ها با استفاده از

مرحله – 1: تقسیم داده ها

هدف کل آموزش یک مدل ML این است که بتوانیم آن را به طور فعال خروجی را روی داده ها/موقعیت های دیده نشده پیش بینی کنیم. یک راه ساده برای انجام آن است

1686759060 898 مقدمه ای بر پیش پردازش داده ها با استفاده از

20% باقیمانده را می توان برای ارزیابی عملکرد مدل توسعه یافته استفاده کرد

مرحله – 2: برخورد با داده های از دست رفته

توجه کنید که برخی از داده های گم شده در ستون سن وجود دارد،
بنابراین 2 راه متداول برای مقابله با داده های از دست رفته وجود دارد

1. حذف تمام سطرها در صورت عدم وجود ستون مورد نیاز

1686759060 884 مقدمه ای بر پیش پردازش داده ها با استفاده از

توجه: برای مجموعه داده های فوق العاده بزرگ عالی عمل می کند اما از آن زمان داده بیشتر = بهتر

2. جایگزینی مقدار وسط ستون (بستگی به نوع داده دارد)

1686759060 473 مقدمه ای بر پیش پردازش داده ها با استفاده از

مرحله – 3: برخورد با داده های کلاس

اغلب، داده‌های مجموعه داده‌ها، داده‌های کلاس هستند و در حالی که داده‌های کلاس رمزگذاری‌شده ممکن است همیشه شدت یک پارامتر را به دقت نشان ندهند، چیزی بهتر از هیچ است.

2 روش معمول برای برخورد با داده های کلاس وجود دارد، اجازه دهید ستون جنسیت را در نظر بگیریم

1. یک رمزگذاری داغ

1686759060 281 مقدمه ای بر پیش پردازش داده ها با استفاده از

چه زمانی یک ستون تقسیم شده است به تعداد کلاس ستون ها مانند جنسیت 2 طبقه دارد: نر و ماده، بنابراین ستون های جنسیت به 2 ستون تقسیم می شود: یک ستون مرد و یک ستون زن

2. رمزگذاری برچسب

1686759060 463 مقدمه ای بر پیش پردازش داده ها با استفاده از

برای ستون هایی با کلاس های باینری، مانند درست یا غلط، مذکر یا زن، بله یا خیر، و غیره به طوری که یکی از برچسب های کلاس با 0 و دیگری با 1 جایگزین شود.

مرحله – 4: مقیاس بندی ویژگی

ستون های مختلف معمولاً پارامترهای متفاوتی را نشان می دهند و همه پارامترها نسبت یکسانی ندارند. با فرض یک مجموعه داده از سن و قد، ستون سن دارای محدوده 1 تا 100 است، در حالی که ستون ارتفاع ممکن است محدوده ای از 100 سانتی متر تا 200 سانتی متر داشته باشد.

چرا این مهم است؟

وقتی این مقادیر را بدون مقیاس بندی آنها در همان محدوده ترسیم می کنیم، به نظر می رسد

1686759060 588 مقدمه ای بر پیش پردازش داده ها با استفاده از

و بیایید بگوییم ما سعی کردیم خطی را پیدا کنیم که به بهترین وجه در نقاطی که به نظر می رسد، جا بیفتد

1686759060 854 مقدمه ای بر پیش پردازش داده ها با استفاده از

با این حال، اگر ورودی ها را به همان محدوده تغییر دهیم، به این شکل خواهد بود

1686759060 712 مقدمه ای بر پیش پردازش داده ها با استفاده از

که حتی با یک نگاه می توان فهمید که خط با مدل مطابقت دارد، یعنی خطای کمتری برای پیش بینی داده های دیده نشده وجود دارد.

اکنون مقیاس بندی ویژگی معمولاً با استفاده از 2 روش انجام می شود

  1. عادی سازی
  2. استاندارد سازی

1686759061 536 مقدمه ای بر پیش پردازش داده ها با استفاده از

که در آن x ورودی فعلی است که می‌خواهیم مقیاس‌بندی کنیم، در اینجا نمونه‌ای از عادی‌سازی مجموعه داده‌ای است که روی آن کار می‌کردیم.

1686759061 807 مقدمه ای بر پیش پردازش داده ها با استفاده از

این به ما یک مجموعه داده آماده برای آموزش می دهد

1686759061 44 مقدمه ای بر پیش پردازش داده ها با استفاده از

مرحله – 5: برخورد با داده های تست

ما پیش پردازش های زیادی را روی مجموعه داده های آموزشی انجام داده ایم، و داده های آزمایشی شبیه داده های آموزشی ناپاک هستند.

بنابراین ما باید به یاد داشته باشید

  1. داده های از دست رفته را با مقدار وسط جایگزین کنید داده های آموزشی
  2. کدگذاری داده های کلاس برای مطابقت با داده های آموزشی
  3. مقیاس ویژگی با استفاده از پارامترهای داده های آموزشی

شما به این نکته پی می برید که ما دقیقاً از آن استفاده می کنیم ابزارهای عملیاتی مشابه استفاده شده بر روی مجموعه داده های آموزشی برای عملیاتی که روی آن انجام خواهیم داد مجموعه داده آزمایشی

yuppp data مردم نباید دکتر شوند 😝

1686759061 991 مقدمه ای بر پیش پردازش داده ها با استفاده از

و با آن داده های آزمایشی داریم که برای سوار شدن در مدل ML ما آماده است

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا