چرا مقیاس گذاری ویژگی ها باید پس از تقسیم مجموعه داده های شما به مجموعه های آموزشی و آزمایشی انجام شود

هنگام کار با مدل های یادگیری ماشین، پیش پردازش داده ها نقش مهمی در تضمین دقت و اثربخشی دارد. یکی از مراحل پیش پردازش ضروری است مقیاس بندی ویژگی. با این حال، جنبه ای که اغلب نادیده گرفته می شود، ترتیب انجام این مراحل است. در این مقاله دلیل آن را بررسی خواهیم کرد مقیاس بندی ویژگی ها همیشه باید پس از تقسیم مجموعه داده های شما به مجموعه های آموزشی و آزمایشی انجام شود. ما مزایای آن، مشکلات مقیاس بندی قبل از تقسیم، و بهترین شیوه ها برای اجرای موثر این فرآیند را پوشش خواهیم داد.
درک مقیاس بندی ویژگی ها در یادگیری ماشینی
مقیاس بندی ویژگی فرآیند استانداردسازی محدوده متغیرها یا ویژگی های مستقل در یک مجموعه داده است. زمانی که ویژگیها مقیاسهای متفاوتی دارند، مانند سن (از 18 تا 60 سال) و درآمد (از 1000 تا 100000)، الگوریتمهای یادگیری ماشین ممکن است برای پردازش مؤثر آنها مشکل داشته باشند. مدل هایی مانند ماشینهای بردار پشتیبانی (SVM)، k-نزدیکترین همسایه (KNN)، و رگرسیون خطی به ویژه به بزرگی داده ها حساس هستند و زمانی که همه ویژگی ها در مقیاس قابل مقایسه هستند عملکرد بهتری دارند.
تکنیک های رایج برای مقیاس بندی ویژگی ها عبارتند از:
- مقیاس حداقل حداکثر: ویژگی ها را در یک محدوده ثابت، معمولاً 0 تا 1 مقیاس می کند.
- استانداردسازی (نرمال سازی امتیاز Z): داده ها را با تفریق میانگین متمرکز می کند و آن را به واریانس واحد مقیاس می دهد.
در حالی که اهمیت مقیاس بندی ویژگی به طور گسترده ای شناخته شده است، زمان اعمال آن به همان اندازه حیاتی است.
چرا ابتدا مجموعه داده خود را تقسیم کنید؟
برای درک اهمیت زمانبندی در مقیاسبندی ویژگیها، اجازه دهید ابتدا هدف از تقسیم یک مجموعه داده را در نظر بگیریم. یک مجموعه داده معمولی به دو بخش اصلی تقسیم می شود:
- مجموعه آموزشی: برای آموزش مدل یادگیری ماشین استفاده می شود.
- مجموعه تست: برای ارزیابی عملکرد مدل بر روی داده های دیده نشده استفاده می شود.
جلوگیری از نشت داده ها
هنگام مقیاس بندی ویژگی ها، اجتناب از آن بسیار مهم است نشت داده– وضعیتی که در آن اطلاعات از مجموعه تست به طور ناخواسته بر روند آموزش تأثیر می گذارد. این می تواند اتفاق بیفتد اگر مقیاس ویژگی را قبل از تقسیم کل مجموعه داده اعمال کنید. به عنوان مثال، اگر میانگین و انحراف استاندارد را برای استانداردسازی با استفاده از مجموعه داده کامل محاسبه کنید، این آمار شامل اطلاعات مجموعه تست می شود. این امر مجموعه تست را آلوده می کند و منجر به تخمین عملکرد بیش از حد خوش بینانه می شود.
ابتدا با تقسیم مجموعه داده، اطمینان حاصل می کنید که مجموعه تست در طول مرحله آموزش کاملاً دیده نشده و بدون تأثیر باقی می ماند.
حفظ یکپارچگی مجموعه تست
را مجموعه تست به عنوان پایه ای برای داده های دنیای واقعی عمل می کند و ارزیابی بی طرفانه ای از عملکرد مدل ارائه می دهد. مقیاس بندی کل مجموعه داده قبل از تقسیم، این اصل را نقض می کند که مجموعه آزمایشی باید مستقل و دست نخورده باقی بماند، که منجر به نتایج گمراه کننده می شود. تقسیم داده ها ابتدا یکپارچگی مجموعه تست را حفظ می کند و ارزیابی واقع بینانه را تضمین می کند.
رویکرد درست: تقسیم، سپس مقیاس
مرحله 1: داده ها را تقسیم کنید
با تقسیم مجموعه داده شروع کنید آموزش و مجموعه های تست. یک نسبت تقسیم معمول 70-80٪ برای آموزش و 20-30٪ برای آزمایش است، اگرچه این می تواند بسته به اندازه مجموعه داده و مورد استفاده شما متفاوت باشد.
مرحله 2: مجموعه آموزشی را مقیاس کنید
پس از تقسیم، مقیاسبندی ویژگی را فقط روی قسمت اعمال کنید مجموعه آموزشی. آمار لازم (مثلاً میانگین، انحراف معیار، حداقل و حداکثر) را با استفاده از داده های آموزشی محاسبه کنید. این تضمین می کند که مجموعه تست مستقل و بی طرف باقی می ماند.
مرحله 3: پارامترهای مجموعه آموزشی را در مجموعه تست اعمال کنید
از پارامترهای مقیاس به دست آمده از مجموعه آموزشی برای تغییر شکل استفاده کنید مجموعه تست. این تضمین میکند که دادههای آزمایشی مانند دادههای آموزشی بدون ایجاد نشت داده، دچار تغییر شکل میشوند.
خطرات پوسته پوسته شدن قبل از تقسیم
پوسته پوسته شدن قبل از تقسیم می تواند منجر به موارد زیر شود:
- نشت داده: اطلاعات مجموعه آزمون بر روند آموزش تأثیر می گذارد.
- ارزیابی گمراه کننده: آلودگی مجموعه تست منجر به معیارهای مصنوعی با عملکرد بالا می شود.
- بیش از حد برازش: مدلها ممکن است بیش از حد به ویژگیهای مقیاسبندی شده تنظیم شوند و به تعمیم دادههای دیده نشده آسیب بزنند.
بهترین روشها برای مقیاسبندی ویژگی در یادگیری ماشینی
برای جلوگیری از این مشکلات، این دستورالعمل ها را دنبال کنید:
- ابتدا مجموعه داده را تقسیم کنید به مجموعه های آموزشی و تستی.
- محاسبه پارامترهای مقیاس بندی (مثلاً میانگین، انحراف معیار) فقط از مجموعه آموزشی.
- این پارامترها را به طور مداوم اعمال کنید به هر دو مجموعه آموزشی و تست.
- برای داده های سری زمانی، مراقب باشید تا از تأثیرگذاری داده های آینده بر مشاهدات گذشته جلوگیری کنید.
- استفاده کنید اعتبار سنجی متقابل برای ارزیابی مدل قوی در چندین چین.
نتیجه گیری
مقیاس بندی ویژگی یک مرحله پیش پردازش حیاتی است، اما زمان بندی آن به همان اندازه مهم است. با تقسیم مجموعه داده خود قبل از مقیاس بندی، استقلال مجموعه آزمایشی را حفظ می کنید، از نشت داده ها جلوگیری می کنید و از ارزیابی دقیق مدل اطمینان می دهید. پیروی از توالی تقسیم اول و مقیاس بندی دوم نتایج بی طرفانه را تضمین می کند و عملکرد واقعی مدل را در داده های دیده نشده منعکس می کند. همیشه به یاد داشته باشید: مجموعه تست خود را جدا، دست نخورده و منعکس کننده سناریوهای دنیای واقعی نگه دارید.