برنامه نویسی

درختان تصمیم گیری چگونه مقادیر داده های گمشده را اداره می کنند؟

درختان تصمیم گیری یک الگوریتم یادگیری ماشین محبوب است که به دلیل سادگی و تفسیر آنها شناخته شده است. با این حال ، رسیدگی به مقادیر داده از دست رفته یک چالش مهم هنگام ایجاد درختان تصمیم گیری است ، زیرا مقادیر از دست رفته می توانند بر دقت و روند تصمیم گیری مدل تأثیر بگذارند.

چندین استراتژی وجود دارد که درختان تصمیم گیری برای مدیریت داده های مفقود شده از آن استفاده می کنند:

تقسیم جانشین:
یک رویکرد متداول استفاده از شکافهای جانشین است. هنگامی که ویژگی اصلی (مورد استفاده برای تقسیم) برای یک رکورد وجود ندارد ، درخت تصمیم به دنبال ویژگی دیگری است که از نزدیک رفتار ویژگی اصلی را تقلید می کند. این ویژگی ثانویه به عنوان یک جایگزین عمل می کند و به رکورد این امکان را می دهد تا بدون وقفه ، سفر خود را از طریق درخت ادامه دهد.

اختصاص به رایج ترین شاخه:
روش دیگر اختصاص رکورد به شایع ترین شاخه در شکاف است. اگر یک مقدار از دست رفته باشد ، سوابق از شاخه ای که اکثر سوابق آن بر اساس توزیع داده های آموزش در آن گره دنبال می شوند ، دنبال می کند.

تکلیف مبتنی بر احتمال:
در برخی از پیاده سازی ها ، سوابق با مقادیر گمشده با توجه به احتمالات مشاهده شده در داده های آموزش ، در شاخه ها تقسیم می شوند. به عنوان مثال ، اگر 70 ٪ از سوابق به سمت چپ و 30 ٪ به سمت راست در یک گره خاص بروند ، رکوردی با داده های مفقود شده به شکلی وزنی تقسیم می شود.

پیش پردازش مقادیر گمشده:
قبل از ساختن درخت ، مقادیر گمشده را می توان در مرحله پیش پردازش داده ها با استفاده از تکنیک های ضعف مانند پر کردن با میانگین ، متوسط ​​، حالت یا استفاده از روشهای پیشرفته تر مانند همسایگان K-Nearest (KNN) استفاده کرد.

این استراتژی ها تضمین می کنند که درختان تصمیم حتی در صورت ناقص بودن داده ها قوی و مؤثر هستند. رسیدگی مناسب از مقادیر گمشده منجر به مدل هایی می شود که در هنگام مواجهه با داده های ناقص در دنیای واقعی ، عملکرد بهتری دارند و عملکرد را حفظ می کنند.

دانستن این مفاهیم عمیقاً برای هر کسی که یک دوره علوم داده و یادگیری ماشین را دنبال می کند بسیار مهم است.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا