تعصب در علم داده؟ 3 رایج ترین انواع و راه های مقابله با آنها

Summarize this content to 400 words in Persian Lang
از آنجایی که هیچ فرد داده ای (دانشمند، مهندس، تحلیلگر و غیره) از ارتکاب سوگیری مبرا نیست، در این مقاله، سوزانا پاچو، متخصص علوم داده و زیست شناس محاسباتی، شما را از طریق 3 نوع رایج راهنمایی می کند و ابزارها و تکنیک هایی را در اختیار شما قرار می دهد. در مورد چگونگی اجتناب از آن
عناوین کتابها و سرفصلهای روزنامهها مانند موارد زیر در دنیایی که توسط الگوریتمها و علم داده تنظیم میشود، امری عادی است.
هرچه دنیا بیشتر به الگوریتم های مبتنی بر داده متکی شود، بیشتر شاهد مواردی از این دست خواهیم بود. با این حال، سوگیری یادگیری ماشین چیز جدیدی نیست.
یکی از پر استنادترین مقالات IT در این موضوع “کاهش سوگیری و ناکارآمدی در الگوریتم انتخاب” توسط جیمز ادوارد بیکر، مربوط به سال 1987 با بیش از 2000 استناد است. بنابراین میتوانیم ببینیم که دهههاست با این موضوع سروکار داریم.
این یک مسئله قدیمی با مشکلات فعلی است. هیچ فرد داده ای (دانشمند، مهندس، تحلیلگر و غیره) از ارتکاب این نوع اشتباهات مبرا نیست. بهترین راه برای مقابله با آنها صحبت کردن در مورد آنها است. بنابراین، در این مقاله، من شما را از طریق 3 نوع رایج سوگیری راهنمایی میکنم و به شما ابزارها و ایدههایی در مورد نحوه اجتناب از آنها ارائه میدهم.
اما ابتدا بیایید الگوریتمی را تعریف کنیم. در سادهترین تعریف، تعصب الگوریتمی «خطاهای سیستماتیک و قابل تکرار در یک سیستم رایانهای را توصیف میکند که نتایج ناعادلانهای ایجاد میکند، مانند امتیاز دادن به یک گروه دلخواه از کاربران بر دیگران».
بنابراین، بیایید 3 سناریوی معمولی که در آن این اتفاق می افتد و تکنیک های مقابله با آنها را ببینیم.
1 – سوگیری تایید
رایج ترین تعصب، همه ما قربانی آن بوده ایم.
زمانی اتفاق میافتد که با انتظار قبلی از آنچه که امیدواریم ببینیم وارد دادهها میشویم. این می تواند آگاهانه یا ناخودآگاه باشد، بنابراین برای یک دانشمند داده بسیار مهم است که به این نوع سوگیری توجه کند. سوگیری ما قضاوت خودمان را مخدوش میکند و در نهایت میتوانیم درباره دادههایی قضاوت کنیم که ممکن است مطابق با واقعیت نباشد.
یک مثال کلاسیک کوارتت Anscombe با 4 مجموعه داده مختلف با 2 متغیر x و y است. اگر آمار خلاصه ساده را انجام دهید، نتایج مشابهی برای همه دریافت خواهید کرد.
مقدار متوسط x برای هر مجموعه داده 9 است
میانگین مقدار y برای هر مجموعه داده 7.50 است
واریانس برای x 11 و واریانس برای y 4.12 است
همبستگی بین x و y برای هر مجموعه داده 0.816 است. رگرسیون خطی (خط بهترین تناسب) برای هر مجموعه داده از معادله y = 0.5x + 3 پیروی می کند.
در ابتدا، ممکن است فکر کنید که آنها معادل هستند، آمار توصیفی همه یکسان است. اما سپس آنها را طرح ریزی می کنید و در کمال تعجب، همه آنها متفاوت هستند. واقعیت با تعصب شما مطابقت ندارد.
هیچ راه آسانی برای خروج از این نوع تعصب وجود ندارد. دو راه اصلی برای جلوگیری از آن، نگه داشتن یک پروتکل استاندارد از تجزیه و تحلیل داده ها است که به طور مداوم در پروژه ها استفاده می کنید، و نزدیک نگه داشتن کارشناسان دانش حوزه برای ارزیابی کار شما. مطمئن باشید که آن متخصصان دانش حوزه، تنوع مشتریان مورد انتظار شما را منعکس میکنند، بنابراین شما همان سوگیری را اما در متخصص دانش حوزه خود بازتولید نکنید.
2 – سوگیری نمونه گیری (همچنین به عنوان سوگیری انتخاب شناخته می شود)
وقتی یک مجموعه داده جمعیتی را که مدل در آن استفاده خواهد شد منعکس نمی کند، سوگیری نمونه گیری اتفاق خواهد افتاد. بیایید شکست ابزار استخدام هوش مصنوعی آمازون را به عنوان مثال در نظر بگیریم. این مدل برنامههای خوب زنان را نادیده میگرفت، زیرا مجموعه دادههای آموزشی آن بهطور عمده با متقاضیان مرد پر شده بود. دقت برای نامزدهای BIPOC نیز کاهش یافت.
روشهایی برای کاهش این سوگیری وجود دارد، مانند دادههای مصنوعی (تولید دادههای مصنوعی از گروههای کمتر ارائهشده) یا تکنیکهای نمونهگیری مجدد (ایجاد زیرمجموعهای از دادههای اصلی که گروهها را متعادل میکند) اما ابتدا، برای ما مهم است که آگاه باشیم که این سوگیری نمونهگیری وجود دارد. و برای آن، ابزارهایی مانند Aequitas – ابزاری رایگان برای انجام ممیزی های جانبداری و انصاف در پروژه های شما – فوق العاده هستند.
استفاده از ابزارهایی مانند این باید به یک استاندارد در کار شما تبدیل شود.
3 – تعصب انجمن
این شایع ترین سوگیری در اخبار امروز است. معمولاً زمانی ظاهر می شود که داده ها به وضوح تقویت یک سوگیری فرهنگی را نشان دهند.
این می تواند به سادگی یک بازی کلمات مرتبط باشد که مردان را با برنامه نویسان و زنان را با پرستاران جفت می کند و یک کلیشه را تقویت می کند. همچنین میتواند به همان اندازه جدی و مشکلساز باشد که هوش مصنوعی در تصمیمات دادگاه در ایالات متحده به کار گرفته شد، که به طور مداوم آنها را نسبت به آمریکاییهای آفریقایی تبار نسبت به آمریکاییهای سفیدپوست خشنتر میکرد.
الگوریتمی که COMPAS نام دارد در تلاشی برای پیشبینی خطر عود هر مجرم ایجاد شد و بر اساس آن خطر، ارزش وثیقه محاسبه شد. در حالی که هنگام محاسبه ارزش وثیقه در همان مسابقه به طور معقولی کار می کرد، در مقایسه با آمریکایی های سفیدپوست به وضوح نسبت به آمریکایی های آفریقایی تبار تعصب داشت. محاسبات داده ها را منعکس می کند و سوگیری داخلی را که در سیستم قضایی وجود دارد نشان می دهد.
راه حل های این نوع سوگیری برای مدیریت و استفاده آسان و بحث برانگیز نیست. امروزه، بهترین شیوهها به ما میگویند که بررسیهای جانبداری مداوم توسط تیمهای مختلف برای اجتناب از موقعیتهایی مانند این بسیار مهم است. یک تیم متنوع (که نشان دهنده جمعیتی است که مدل به آنها خدمات می دهد) بهترین مسیر رو به جلو است.
انعکاس جهان در تیمهایمان، بررسی کار توسط بیش از یک گروه، و هوشیاری نسبت به این واقعیت که سوگیری بخشی از علم داده است، به ما کمک میکند به سمت دنیای الگوریتمی منصفانهتر حرکت کنیم.
به یاد داشته باشید، همکاران داده، محتاط باشید، هوشیار باشید و تمام تلاش خود را برای جلوگیری از تعصب انجام دهید.
این تمام چیزی است که می توان از یک حرفه ای داده خوب درخواست کرد.
بیایید در رسانه های اجتماعی ارتباط برقرار کنیم، ما را در لینکدین دنبال کنید!
مقاله نوشته شده توسط سوزانا پاکو، و در ابتدا در https://kwan.com/blog/bias-data-science-3-most-common-types-and-ways-to-deal-with-them/ در 24 ژوئن منتشر شده است. 2021.
شما را در مقاله بعدی می بینیم!
از آنجایی که هیچ فرد داده ای (دانشمند، مهندس، تحلیلگر و غیره) از ارتکاب سوگیری مبرا نیست، در این مقاله، سوزانا پاچو، متخصص علوم داده و زیست شناس محاسباتی، شما را از طریق 3 نوع رایج راهنمایی می کند و ابزارها و تکنیک هایی را در اختیار شما قرار می دهد. در مورد چگونگی اجتناب از آن
عناوین کتابها و سرفصلهای روزنامهها مانند موارد زیر در دنیایی که توسط الگوریتمها و علم داده تنظیم میشود، امری عادی است.
هرچه دنیا بیشتر به الگوریتم های مبتنی بر داده متکی شود، بیشتر شاهد مواردی از این دست خواهیم بود. با این حال، سوگیری یادگیری ماشین چیز جدیدی نیست.
یکی از پر استنادترین مقالات IT در این موضوع “کاهش سوگیری و ناکارآمدی در الگوریتم انتخاب” توسط جیمز ادوارد بیکر، مربوط به سال 1987 با بیش از 2000 استناد است. بنابراین میتوانیم ببینیم که دهههاست با این موضوع سروکار داریم.
این یک مسئله قدیمی با مشکلات فعلی است. هیچ فرد داده ای (دانشمند، مهندس، تحلیلگر و غیره) از ارتکاب این نوع اشتباهات مبرا نیست. بهترین راه برای مقابله با آنها صحبت کردن در مورد آنها است. بنابراین، در این مقاله، من شما را از طریق 3 نوع رایج سوگیری راهنمایی میکنم و به شما ابزارها و ایدههایی در مورد نحوه اجتناب از آنها ارائه میدهم.
اما ابتدا بیایید الگوریتمی را تعریف کنیم. در سادهترین تعریف، تعصب الگوریتمی «خطاهای سیستماتیک و قابل تکرار در یک سیستم رایانهای را توصیف میکند که نتایج ناعادلانهای ایجاد میکند، مانند امتیاز دادن به یک گروه دلخواه از کاربران بر دیگران».
بنابراین، بیایید 3 سناریوی معمولی که در آن این اتفاق می افتد و تکنیک های مقابله با آنها را ببینیم.
1 – سوگیری تایید
رایج ترین تعصب، همه ما قربانی آن بوده ایم.
زمانی اتفاق میافتد که با انتظار قبلی از آنچه که امیدواریم ببینیم وارد دادهها میشویم. این می تواند آگاهانه یا ناخودآگاه باشد، بنابراین برای یک دانشمند داده بسیار مهم است که به این نوع سوگیری توجه کند. سوگیری ما قضاوت خودمان را مخدوش میکند و در نهایت میتوانیم درباره دادههایی قضاوت کنیم که ممکن است مطابق با واقعیت نباشد.
یک مثال کلاسیک کوارتت Anscombe با 4 مجموعه داده مختلف با 2 متغیر x و y است. اگر آمار خلاصه ساده را انجام دهید، نتایج مشابهی برای همه دریافت خواهید کرد.
- مقدار متوسط x برای هر مجموعه داده 9 است
- میانگین مقدار y برای هر مجموعه داده 7.50 است
- واریانس برای x 11 و واریانس برای y 4.12 است
- همبستگی بین x و y برای هر مجموعه داده 0.816 است. رگرسیون خطی (خط بهترین تناسب) برای هر مجموعه داده از معادله y = 0.5x + 3 پیروی می کند.
در ابتدا، ممکن است فکر کنید که آنها معادل هستند، آمار توصیفی همه یکسان است. اما سپس آنها را طرح ریزی می کنید و در کمال تعجب، همه آنها متفاوت هستند. واقعیت با تعصب شما مطابقت ندارد.
هیچ راه آسانی برای خروج از این نوع تعصب وجود ندارد. دو راه اصلی برای جلوگیری از آن، نگه داشتن یک پروتکل استاندارد از تجزیه و تحلیل داده ها است که به طور مداوم در پروژه ها استفاده می کنید، و نزدیک نگه داشتن کارشناسان دانش حوزه برای ارزیابی کار شما. مطمئن باشید که آن متخصصان دانش حوزه، تنوع مشتریان مورد انتظار شما را منعکس میکنند، بنابراین شما همان سوگیری را اما در متخصص دانش حوزه خود بازتولید نکنید.
2 – سوگیری نمونه گیری (همچنین به عنوان سوگیری انتخاب شناخته می شود)
وقتی یک مجموعه داده جمعیتی را که مدل در آن استفاده خواهد شد منعکس نمی کند، سوگیری نمونه گیری اتفاق خواهد افتاد. بیایید شکست ابزار استخدام هوش مصنوعی آمازون را به عنوان مثال در نظر بگیریم. این مدل برنامههای خوب زنان را نادیده میگرفت، زیرا مجموعه دادههای آموزشی آن بهطور عمده با متقاضیان مرد پر شده بود. دقت برای نامزدهای BIPOC نیز کاهش یافت.
روشهایی برای کاهش این سوگیری وجود دارد، مانند دادههای مصنوعی (تولید دادههای مصنوعی از گروههای کمتر ارائهشده) یا تکنیکهای نمونهگیری مجدد (ایجاد زیرمجموعهای از دادههای اصلی که گروهها را متعادل میکند) اما ابتدا، برای ما مهم است که آگاه باشیم که این سوگیری نمونهگیری وجود دارد. و برای آن، ابزارهایی مانند Aequitas – ابزاری رایگان برای انجام ممیزی های جانبداری و انصاف در پروژه های شما – فوق العاده هستند.
استفاده از ابزارهایی مانند این باید به یک استاندارد در کار شما تبدیل شود.
3 – تعصب انجمن
این شایع ترین سوگیری در اخبار امروز است. معمولاً زمانی ظاهر می شود که داده ها به وضوح تقویت یک سوگیری فرهنگی را نشان دهند.
این می تواند به سادگی یک بازی کلمات مرتبط باشد که مردان را با برنامه نویسان و زنان را با پرستاران جفت می کند و یک کلیشه را تقویت می کند. همچنین میتواند به همان اندازه جدی و مشکلساز باشد که هوش مصنوعی در تصمیمات دادگاه در ایالات متحده به کار گرفته شد، که به طور مداوم آنها را نسبت به آمریکاییهای آفریقایی تبار نسبت به آمریکاییهای سفیدپوست خشنتر میکرد.
الگوریتمی که COMPAS نام دارد در تلاشی برای پیشبینی خطر عود هر مجرم ایجاد شد و بر اساس آن خطر، ارزش وثیقه محاسبه شد. در حالی که هنگام محاسبه ارزش وثیقه در همان مسابقه به طور معقولی کار می کرد، در مقایسه با آمریکایی های سفیدپوست به وضوح نسبت به آمریکایی های آفریقایی تبار تعصب داشت. محاسبات داده ها را منعکس می کند و سوگیری داخلی را که در سیستم قضایی وجود دارد نشان می دهد.
راه حل های این نوع سوگیری برای مدیریت و استفاده آسان و بحث برانگیز نیست. امروزه، بهترین شیوهها به ما میگویند که بررسیهای جانبداری مداوم توسط تیمهای مختلف برای اجتناب از موقعیتهایی مانند این بسیار مهم است. یک تیم متنوع (که نشان دهنده جمعیتی است که مدل به آنها خدمات می دهد) بهترین مسیر رو به جلو است.
انعکاس جهان در تیمهایمان، بررسی کار توسط بیش از یک گروه، و هوشیاری نسبت به این واقعیت که سوگیری بخشی از علم داده است، به ما کمک میکند به سمت دنیای الگوریتمی منصفانهتر حرکت کنیم.
به یاد داشته باشید، همکاران داده، محتاط باشید، هوشیار باشید و تمام تلاش خود را برای جلوگیری از تعصب انجام دهید.
این تمام چیزی است که می توان از یک حرفه ای داده خوب درخواست کرد.
بیایید در رسانه های اجتماعی ارتباط برقرار کنیم، ما را در لینکدین دنبال کنید!
مقاله نوشته شده توسط سوزانا پاکو، و در ابتدا در https://kwan.com/blog/bias-data-science-3-most-common-types-and-ways-to-deal-with-them/ در 24 ژوئن منتشر شده است. 2021.
شما را در مقاله بعدی می بینیم!