اشتباهات علوم داده مشترک من (و چگونه از آنها جلوگیری کنم)

علم داده یک زمینه هیجان انگیز است ، اما اشتباه کردن در این مسیر آسان است ، به خصوص وقتی تازه شروع می کنید. بعد از کار روی چندین پروژه ، فهمیدم که چند مشکل رایج وجود دارد که بسیاری از ما در آن قرار می گیرند. در اینجا برخی از اشتباهاتی که من مرتکب شده ام – و اینکه چگونه می توانید از آنها برای بهبود گردش کار خودداری کنید.
1 مدل های بیش از حد
در روزهای ابتدایی ، من با دستیابی به دقت بالا در مدل هایم وسواس داشتم. نتیجه؟ بیش از حد من وقت زیادی را صرف تنظیم دقیق مدل خود کردم تا کاملاً روی داده های آموزش انجام دهم ، فقط برای تحقق این کار در داده های دنیای واقعی ضعیف عمل می کنند. بیش از حد هنگامی اتفاق می افتد که یک مدل به جای الگوهای زیرین ، نویز را در داده ها بیاموزد.
چگونه از آن جلوگیری کنیم:
برای بررسی عملکرد مدل خود در داده های غیب از اعتبار سنجی متقاطع استفاده کنید. تکنیک های منظم مانند L1 و L2 همچنین می توانند با مجازات مدلهای بیش از حد پیچیده ، از جلوگیری از بیش از حد جلوگیری کنند. برای اعتراض به تعادل مناسب ، به مبادله تعصب و واریانس توجه داشته باشید.
2 نادیده گرفتن کیفیت داده ها
تمرکز روی الگوریتم ها و مدل ها آسان است ، اما کیفیت پایین داده ها می تواند نتایج شما را فلج کند. در اوایل ، من اغلب داده های گمشده ، ناسازگاری ها و افراد خارج از کشور را نادیده می گرفتم ، و فکر می کردم که آنها در طول تجزیه و تحلیل خودشان کار می کنند. آنها این کار را نکردند.
چگونه از آن جلوگیری کنیم:
وقت خود را صرف تمیز کردن داده های خود کنید – مقادیر نشانگر ، سوابق تکراری و خارج از کشور نباید از آن غافل شوید. قبل از مدل سازی داده ها را با تجسم آن و بررسی الگویی که ممکن است نشانگر مسائل باشد ، کاوش کنید. مجموعه داده تمیز پایه و اساس هر مدل قوی است.
3 عدم درک مشکل تجارت
یکی از اشتباهی که من اغلب مرتکب شدم ، پریدن به مدل های ساختمان بدون درک کامل مشکلی که حل می کردم. این منجر به مدل های بی ربط شد که هیچ ارزشی برای تجارت به همراه نداشت.
چگونه از آن جلوگیری کنیم:
همیشه با مشکل تجاری شروع کنید. اهداف را روشن کنید ، از ذینفعان سؤال کنید و اطمینان حاصل کنید که مدل شما با اهداف دنیای واقعی هماهنگ است. درک مشکل ، جمع آوری داده ها ، انتخاب ویژگی ها و انتخاب مدل را راهنمایی می کند.
4 پرش از مهندسی ویژگی
در پروژه های اولیه من ، فکر می کردم داده های خام برای ساختن یک مدل موفق کافی است. اما من به سرعت فهمیدم که مهندسی ویژگی ضروری است. داده های خام غالباً به صورت مناسب برای الگوریتم ها نیست تا از آن استفاده کنند.
چگونه از آن جلوگیری کنیم:
وقت خود را صرف تبدیل داده های خود به ویژگی های معنی دار کنید. این می تواند شامل مقیاس بندی ، رمزگذاری متغیرهای طبقه بندی یا ایجاد ویژگی های جدید بر اساس دانش دامنه باشد. ویژگی های بهتر منجر به عملکرد مدل بهتر می شود.
پایان
اشتباهات بخشی از فرایند یادگیری است ، اما درک جایی که اشتباه کرده اید می تواند به شما در جلوگیری از همان تله ها در آینده کمک کند. با توجه به این اشتباهات رایج – نادیده گرفتن ، نادیده گرفتن کیفیت داده ها ، سوء استفاده از اهداف تجاری و پرش از مهندسی ویژگی – شما در راه ساختن راه حل های دقیق تر و تأثیرگذارتر علوم داده خواهید بود.