مقدمه ای بر پیش پردازش داده ها با استفاده از تشخیص کمی احساسات

این وبلاگ در ابتدا در https://ziro2mach.com وبلاگ یادگیری ماشینی من ارسال شد
شاید تنها چیزی که در مورد یادگیری ماشینی مهمتر از یادگیری ماشینی است این باشد پیش پردازش داده ها 🙃
به این دلیل که قبل از یادگیری ماشین تعریف شده است:
~ علم ~ ریاضی از گرفتن اطلاعات دنیای واقعی، تبدیل آن به اعداد و سپس ~پیدا کردن~ یادگیری الگویی از آن
و اطلاعات بیرون در دنیای واقعی به همراه آن، تن از سر و صدا
به عنوان یک مدافع یادگیری با کثیف کردن دستان خود، در اینجا یک مثال آورده شده است
چیزی به نام وجود دارد دایره راسل
چیزی که کمک می کند کمیت کردن احساسات
زیرا الگوریتم های ML یاد می گیرند بهترین زمانی که داده هایی که با آن کار می کنند است اعداد پیوسته به جای داده های طبقه بندی رمزگذاری شده سنتی مانند
در حالی که داده های طبقه بندی شده نشان دهنده اعداد، ارزش عددی یک کلاس است همیشه نشان دهنده شدت یک احساس، در حالی که مدل راسل به شما یک فعال سازی و یک خوشایند بودن ارزشی که قبلاً شدت یک احساس است
فرض کنید یک مجموعه داده با پارامترهایی که به دنبال آن هستیم پیدا می کنیم
اینجا ستون عکس نشان دهنده یک آرایه سه بعدی از مقادیر پیکسل قرمز، سبز و آبی از یک تصویر حاوی یک احساس است و بقیه کاملاً مستقیم هستند.
مرحله – 1: تقسیم داده ها
هدف کل آموزش یک مدل ML این است که بتوانیم آن را به طور فعال خروجی را روی داده ها/موقعیت های دیده نشده پیش بینی کنیم. یک راه ساده برای انجام آن است
20% باقیمانده را می توان برای ارزیابی عملکرد مدل توسعه یافته استفاده کرد
مرحله – 2: برخورد با داده های از دست رفته
توجه کنید که برخی از داده های گم شده در ستون سن وجود دارد،
بنابراین 2 راه متداول برای مقابله با داده های از دست رفته وجود دارد
1. حذف تمام سطرها در صورت عدم وجود ستون مورد نیاز
توجه: برای مجموعه داده های فوق العاده بزرگ عالی عمل می کند اما از آن زمان داده بیشتر = بهتر…
2. جایگزینی مقدار وسط ستون (بستگی به نوع داده دارد)
مرحله – 3: برخورد با داده های کلاس
اغلب، دادههای مجموعه دادهها، دادههای کلاس هستند و در حالی که دادههای کلاس رمزگذاریشده ممکن است همیشه شدت یک پارامتر را به دقت نشان ندهند، چیزی بهتر از هیچ است.
2 روش معمول برای برخورد با داده های کلاس وجود دارد، اجازه دهید ستون جنسیت را در نظر بگیریم
1. یک رمزگذاری داغ
چه زمانی یک ستون تقسیم شده است به تعداد کلاس ستون ها مانند جنسیت 2 طبقه دارد: نر و ماده، بنابراین ستون های جنسیت به 2 ستون تقسیم می شود: یک ستون مرد و یک ستون زن
2. رمزگذاری برچسب
برای ستون هایی با کلاس های باینری، مانند درست یا غلط، مذکر یا زن، بله یا خیر، و غیره به طوری که یکی از برچسب های کلاس با 0 و دیگری با 1 جایگزین شود.
مرحله – 4: مقیاس بندی ویژگی
ستون های مختلف معمولاً پارامترهای متفاوتی را نشان می دهند و همه پارامترها نسبت یکسانی ندارند. با فرض یک مجموعه داده از سن و قد، ستون سن دارای محدوده 1 تا 100 است، در حالی که ستون ارتفاع ممکن است محدوده ای از 100 سانتی متر تا 200 سانتی متر داشته باشد.
چرا این مهم است؟
وقتی این مقادیر را بدون مقیاس بندی آنها در همان محدوده ترسیم می کنیم، به نظر می رسد
و بیایید بگوییم ما سعی کردیم خطی را پیدا کنیم که به بهترین وجه در نقاطی که به نظر می رسد، جا بیفتد
با این حال، اگر ورودی ها را به همان محدوده تغییر دهیم، به این شکل خواهد بود
که حتی با یک نگاه می توان فهمید که خط با مدل مطابقت دارد، یعنی خطای کمتری برای پیش بینی داده های دیده نشده وجود دارد.
اکنون مقیاس بندی ویژگی معمولاً با استفاده از 2 روش انجام می شود
- عادی سازی
- استاندارد سازی
که در آن x ورودی فعلی است که میخواهیم مقیاسبندی کنیم، در اینجا نمونهای از عادیسازی مجموعه دادهای است که روی آن کار میکردیم.
این به ما یک مجموعه داده آماده برای آموزش می دهد
مرحله – 5: برخورد با داده های تست
ما پیش پردازش های زیادی را روی مجموعه داده های آموزشی انجام داده ایم، و داده های آزمایشی شبیه داده های آموزشی ناپاک هستند.
بنابراین ما باید به یاد داشته باشید
- داده های از دست رفته را با مقدار وسط جایگزین کنید داده های آموزشی
- کدگذاری داده های کلاس برای مطابقت با داده های آموزشی
- مقیاس ویژگی با استفاده از پارامترهای داده های آموزشی
شما به این نکته پی می برید که ما دقیقاً از آن استفاده می کنیم ابزارهای عملیاتی مشابه استفاده شده بر روی مجموعه داده های آموزشی برای عملیاتی که روی آن انجام خواهیم داد مجموعه داده آزمایشی
yuppp data مردم نباید دکتر شوند 😝
و با آن داده های آزمایشی داریم که برای سوار شدن در مدل ML ما آماده است